cs '분류 전체보기' 카테고리의 글 목록 (17 Page)
본문 바로가기
  • 매일 한걸음씩
  • 매일 한걸음씩
반응형

전체105

BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 정리 - 1 ( Transformer, Attention) 오늘은 만 번넘게 인용된 NLP분야의 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 모델에 대해 정리해보려고 한다. 먼저 BERT가 트랜스포머 Transformer 네트워크를 기반으로 한만큼 트랜스포머 네트워크에 대해 알아보고 들어가자. Transformer Network란? https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf 구글이 발표한 이 논문에서 등장한 네트워크로 제목에서 유추할 듯이 Attention어텐션만으로 구현하였다. 여기서 attetion 또한 짚고 넘어가보자. Attention 메커니즘이란? 참고 NLP 모델 중 하나인 seq2.. 2020. 10. 24.
일기) 또다시 오랜만의 글 최근 회사일과 다른 이런저런 일들로 바쁘며 블로그를 소홀히 했다. 9월에 쓴 글이 하나도 없는데 9월을 나만의 안식달(?)로 여기고 10월부터 다시 시작하고자 한다. 요즘들어 욕심이 많아 이것저것 취미로 배우고 싶은데 우선순위를 정해서 배우고자 한다. 배우거나 이미 알고있지만 마스터하고 싶은 리스트는 다음과 같다. SQL 자유자재로 다룰 수 있는 정도 JAVA 마스터 Spring boot 토이 프로젝트라도 하기 Javascript 재미로 배우고 싶음 딥러닝 최신 논문 리뷰 Hadoop 입문 너무 욕심내지 말고 한달에 하나씩 이루어 보려고 한다. 화이팅! 시모니의 10월의 추천 최근 라는 책을 읽고 있는데 넘 재밌다. 임베딩 관심있는 모든 분들에게 추천합니다!! (참고 ratsgo.github.io/nat.. 2020. 10. 4.
텍스트 유사도 Text Similarity 개요 두 단어 혹은 두 문장이 주어졌을 때, 유사도를 어떻게 측정할 수 있을까? 대표적인 Text Similarity 측정 metric인 Cosine Similarity와 Jaccard Similarity를 통해 측정할 수 있을 것이다. 1. Jaccard Similarity 자카드 유사도 우선 자카드 유사도로 유사도를 측정하기 전에 Lemmatization 과정이 필요하다. 표제어 추출이라 번역될 수 있는 lemmatization이란 단어의 뿌리를 찾아가는 과정이라 볼 수 있다. 예를 들어, had와 has는 스펠링이 다르지만 뿌리는 모두 have이다. 이 때, had와 has의 표제어를 have라고 한다. 이렇게 표제어 추출 후 두 문장의 교집합과 합집합의 크기를 통해 자카드 유사도를 구한다. 다음의 두 .. 2020. 8. 11.
Embeddings에 대한 이해 -2 | 이미지 기반 유사도, 텍스트 기반 유사도에 대해, TensorFlow Hub 이전 글에서 이어지는 포스팅입니다. simonezz.tistory.com/43 Embeddings에 대한 이해 -1 | 이미지 기반 유사도, 텍스트 기반 유사도에 대해 이 글은 다음의 글을 참고하여 작성되었습니다. cloud.google.com/solutions/machine-learning/overview-extracting-and-serving-feature-embeddings-for-machine-learning?hl=ko 개요: 머신러닝을 위한 특성 임베.. simonezz.tistory.com 많은 사람들이 ML 모델들을 이용해서 고차원이거나 복잡하거나 구조화되지 않은 데이터를 임베딩으로 인코딩하고자한다. 텍스트나 이미지, 그 외 데이터들을 인코딩하기 위해 미리 트레이닝된 네트워크를 이용하여 임.. 2020. 8. 11.
728x90
반응형