cs 'nlp' 태그의 글 목록
본문 바로가기
  • 매일 한걸음씩
  • 매일 한걸음씩
반응형

nlp8

[논문 리뷰] OpenAI GPT-1 : Improving Language Understanding by Generative Pre-Training (1) Abstract 이 논문에서는 다양한 라벨링되지 않은 데이터로 pre-training을 시킨 후 특정 task에 맞춘 fine-tuning 과정을 거치는 단계를 가진다. 이전의 방법론들과는 달리 모델구조를 최소한으로 변화시키고 효과적인 Transfer를 얻기 위한 fine-tuning 단계에서 과제에 맞는 Input representations을 사용하였다. 다양한 실험 결과를 통해 이 접근이 다양한 과제에 대해 효과적임을 증명하였다. 이 논문에서 task에 대한 사전 지식이 없는(task-agnostic) 모델은 특정과제에 특화된 모델 성능을 뛰어넘는다. 테스트된 12개의 tasks 중 9개에서 SOTA 수준의 성능을 달성하였다. 1. Introduction 라벨링 되지 않은 raw 데이터의 텍스트에서.. 2021. 2. 3.
[논문 리뷰] Attention Is All You Need, Transformer 딥러닝 논문 스터디에서 제가 발표한 내용입니다. 마지막 페이지의 side benefit은 제가 부작용으로 이해를 하여 팀원들께 이해가 가지 않은 부분을 질문하다보니 부작용이 아닌 부가적인 장점을 뜻하는 것을 알게 되었습니다😂😂 마치 Black box와 같던 딥러닝 모델을 이제 어느정도 해석이 가능하다는 뜻으로 해석했는데 혹시 다른 의견이 있으신 분들은 댓글로 남겨주시면 감사하겠습니다. ㅎㅎ 2021. 1. 9.
fastText란 무엇인가? 오늘은 FACEBOOK AI연구소에서 만든 텍스트 임베딩 기법 중 하나인 fastText에 대해 알아보자. 전반적으로 word2vec과 유사하나, 가장 큰 차이점은 각 단어를 character 단위 n-gram으로 쪼갠다는 것이다. 예를 들어, "eating"이라는 단어는 n=3일 때 아래와 같이 쪼개져서 표현된다. 한국어 같은 경우에는, 토마토주스를 표현한다고 하면, [토마, 토마토, 마토주, 토주스, 주스]로 표현된다. fastText또한 word2vec에서와 같이 네거티브 샘플링을 쓴다. 네거티브 샘플링에 대한 내용은 https://simonezz.tistory.com/36 Word2vec 알고리즘 리뷰 2 : Negative sampling 와 Subsampling 앞전에 리뷰한 word2vec의.. 2020. 11. 21.
BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 정리 - 2 ( Transformer, Attention) 해당 글은 이 글, 그리고 한국어 임베딩 책(by 이기창님)을 참고하여 작성하였음을 미리 알려드립니다. 4. 어텐션 메커니즘 2) 기존 모델과 비교 CNN과 비교해보면 CNN은 일정 window만큼만 단어들을 보기 때문에 문장 전체에서의 연결성이 떨어진다. 즉, 길이가 긴 문장에서 첫번째 단어와 마지막쪽 단어간의 연관성을 파악하기가 어렵다. RNN과 비교해보면 이전 포스트에서 언급했듯이 그래디언트 배니싱(Gradient Vanishing)문제가 일어날 가능성이 있다. 첫번째 단점을 어텐션은 문장의 모든 단어들을 weighted 로 고려한다는 점에서 극복하였고, 두번째 단점은 앞서 scaled dot-product attention에서 key 행렬 차원수의 제곱근으로 나눠 scale함으로써 극복하였다. (.. 2020. 11. 14.
728x90
반응형