반응형 attention1 BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 정리 - 1 ( Transformer, Attention) 오늘은 만 번넘게 인용된 NLP분야의 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 모델에 대해 정리해보려고 한다. 먼저 BERT가 트랜스포머 Transformer 네트워크를 기반으로 한만큼 트랜스포머 네트워크에 대해 알아보고 들어가자. Transformer Network란? https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf 구글이 발표한 이 논문에서 등장한 네트워크로 제목에서 유추할 듯이 Attention어텐션만으로 구현하였다. 여기서 attetion 또한 짚고 넘어가보자. Attention 메커니즘이란? 참고 NLP 모델 중 하나인 seq2.. 2020. 10. 24. 이전 1 다음 728x90 반응형