반응형 한국어임베딩1 BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 정리 - 2 ( Transformer, Attention) 해당 글은 이 글, 그리고 한국어 임베딩 책(by 이기창님)을 참고하여 작성하였음을 미리 알려드립니다. 4. 어텐션 메커니즘 2) 기존 모델과 비교 CNN과 비교해보면 CNN은 일정 window만큼만 단어들을 보기 때문에 문장 전체에서의 연결성이 떨어진다. 즉, 길이가 긴 문장에서 첫번째 단어와 마지막쪽 단어간의 연관성을 파악하기가 어렵다. RNN과 비교해보면 이전 포스트에서 언급했듯이 그래디언트 배니싱(Gradient Vanishing)문제가 일어날 가능성이 있다. 첫번째 단점을 어텐션은 문장의 모든 단어들을 weighted 로 고려한다는 점에서 극복하였고, 두번째 단점은 앞서 scaled dot-product attention에서 key 행렬 차원수의 제곱근으로 나눠 scale함으로써 극복하였다. (.. 2020. 11. 14. 이전 1 다음 728x90 반응형