반응형 개발/NLP(Natural Language Processing)15 BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 정리 - 2 ( Transformer, Attention) 해당 글은 이 글, 그리고 한국어 임베딩 책(by 이기창님)을 참고하여 작성하였음을 미리 알려드립니다. 4. 어텐션 메커니즘 2) 기존 모델과 비교 CNN과 비교해보면 CNN은 일정 window만큼만 단어들을 보기 때문에 문장 전체에서의 연결성이 떨어진다. 즉, 길이가 긴 문장에서 첫번째 단어와 마지막쪽 단어간의 연관성을 파악하기가 어렵다. RNN과 비교해보면 이전 포스트에서 언급했듯이 그래디언트 배니싱(Gradient Vanishing)문제가 일어날 가능성이 있다. 첫번째 단점을 어텐션은 문장의 모든 단어들을 weighted 로 고려한다는 점에서 극복하였고, 두번째 단점은 앞서 scaled dot-product attention에서 key 행렬 차원수의 제곱근으로 나눠 scale함으로써 극복하였다. (.. 2020. 11. 14. BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 정리 - 1 ( Transformer, Attention) 오늘은 만 번넘게 인용된 NLP분야의 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 모델에 대해 정리해보려고 한다. 먼저 BERT가 트랜스포머 Transformer 네트워크를 기반으로 한만큼 트랜스포머 네트워크에 대해 알아보고 들어가자. Transformer Network란? https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf 구글이 발표한 이 논문에서 등장한 네트워크로 제목에서 유추할 듯이 Attention어텐션만으로 구현하였다. 여기서 attetion 또한 짚고 넘어가보자. Attention 메커니즘이란? 참고 NLP 모델 중 하나인 seq2.. 2020. 10. 24. 텍스트 유사도 Text Similarity 개요 두 단어 혹은 두 문장이 주어졌을 때, 유사도를 어떻게 측정할 수 있을까? 대표적인 Text Similarity 측정 metric인 Cosine Similarity와 Jaccard Similarity를 통해 측정할 수 있을 것이다. 1. Jaccard Similarity 자카드 유사도 우선 자카드 유사도로 유사도를 측정하기 전에 Lemmatization 과정이 필요하다. 표제어 추출이라 번역될 수 있는 lemmatization이란 단어의 뿌리를 찾아가는 과정이라 볼 수 있다. 예를 들어, had와 has는 스펠링이 다르지만 뿌리는 모두 have이다. 이 때, had와 has의 표제어를 have라고 한다. 이렇게 표제어 추출 후 두 문장의 교집합과 합집합의 크기를 통해 자카드 유사도를 구한다. 다음의 두 .. 2020. 8. 11. Okapi BM25란 무엇인가? (TF-IDF와 비교) 이 포스팅은 Kaggle의 한 notebooks를 보고 추천시스템 공부를 하는 와중에 bm25가 나와서 정리해보고자 작성하게 되었다. 먼저 BM25의 정의를 보자. en.wikipedia.org/wiki/Okapi_BM25 Okapi BM25 - Wikipedia In information retrieval, Okapi BM25 (BM is an abbreviation of best matching) is a ranking function used by search engines to estimate the relevance of documents to a given search query. It is based on the probabilistic retrieval framework developed .. 2020. 7. 29. 이전 1 2 3 4 다음 728x90 반응형