cs '자연어처리' 태그의 글 목록
본문 바로가기
  • 매일 한걸음씩
  • 매일 한걸음씩

자연어처리5

fastText란 무엇인가? 오늘은 FACEBOOK AI연구소에서 만든 텍스트 임베딩 기법 중 하나인 fastText에 대해 알아보자. 전반적으로 word2vec과 유사하나, 가장 큰 차이점은 각 단어를 character 단위 n-gram으로 쪼갠다는 것이다. 예를 들어, "eating"이라는 단어는 n=3일 때 아래와 같이 쪼개져서 표현된다. 한국어 같은 경우에는, 토마토주스를 표현한다고 하면, [토마, 토마토, 마토주, 토주스, 주스]로 표현된다. fastText또한 word2vec에서와 같이 네거티브 샘플링을 쓴다. 네거티브 샘플링에 대한 내용은 https://simonezz.tistory.com/36 Word2vec 알고리즘 리뷰 2 : Negative sampling 와 Subsampling 앞전에 리뷰한 word2vec의.. 2020. 11. 21.
BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 정리 - 1 ( Transformer, Attention) 오늘은 만 번넘게 인용된 NLP분야의 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 모델에 대해 정리해보려고 한다. 먼저 BERT가 트랜스포머 Transformer 네트워크를 기반으로 한만큼 트랜스포머 네트워크에 대해 알아보고 들어가자. Transformer Network란? https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf 구글이 발표한 이 논문에서 등장한 네트워크로 제목에서 유추할 듯이 Attention어텐션만으로 구현하였다. 여기서 attetion 또한 짚고 넘어가보자. Attention 메커니즘이란? 참고 NLP 모델 중 하나인 seq2.. 2020. 10. 24.
Word2vec 알고리즘 리뷰 3 : 네이버 영화 리뷰 데이터를 이용한 실습 네이버 영화 리뷰 dataset 출처 : https://github.com/e9t/nsmc/ 저번 포스팅에서 대략적인 Word2Vec 이론을 다뤘으니 실습을 해보도록 하자. In [ ]: # import matplotlib as mpl # import matplotlib.pyplot as plt # %config InlineBackend.figure_format = 'retina' # !apt -qq -y install fonts-nanum # import matplotlib.font_manager as fm # fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf' # plt.rc('font', family='NanumBarunGothic'.. 2020. 5. 30.
Word2vec 알고리즘 리뷰 2 : Negative sampling 와 Subsampling 앞전에 리뷰한 word2vec의 기본적인 내용 (CBOW, skip-gram)에서 https://simonezz.tistory.com/35 Word2vec 알고리즘 리뷰 1 : CBOW 와 Skip-gram https://simonezz.tistory.com/34 추천시스템 Recommender System 정리 코드만 짜고 하다보니 전체적인 그림이 자꾸 잊혀지는 것 같아 한 번 정리를 쭉 해보고자 한다. 참고 추천시스템이란? 사용자의 interest를. simonezz.tistory.com 우리는 Input이 one-hot encoding임을 이용하여 Input layer->Hidden layer의 파라미터인 W의 각 행이각 단어의 embedded vector라 했었다. 즉 나머지의 값은 0이고 한 인.. 2020. 5. 28.
728x90