반응형 개발/NLP(Natural Language Processing)15 Text Classification에서 class imbalance 해결 방법 텍스트 분류를 BERT와 같은 언어모델로 풀고자 할 때 흔하게 발생하는 이슈는 특정 클래스들의 데이터 수가 상대적으로 적은 Imbalance 문제이다. 이를 어떤 방법으로 해결할 수 있을 지 살펴보자. 참고 : www.researchgate.net/publication/336538175_Dealing_with_Data_Imbalance_in_Text_Classification (PDF) Dealing with Data Imbalance in Text Classification PDF | Many real world datasets don’t offer enough training input for regular classifiers: some classes are more represented than .. 2021. 4. 28. [논문 리뷰] X-BERT: eXtreme Multi-label Text Classification usingBidirectional Encoder Representations from Transformers 이 논문은 XMC를 BERT를 이용하여 푸는 모델에 대한 논문이다. 회사에서 BERT를 이용하여 text classification을 하려했는데 예제들을 보니 클래스가 많아봤자 5개 정도라 클래스가 많은 경우에는 어떻게 하나 싶어서 찾아보다가 이 논문을 찾았다. 하고자하는 task가 클래스가 1000개가 좀 넘기때문에 XMC라고 볼 수 있어 이 논문을 읽고 코드까지 보고 적용가능성을 판단하려고 한다. Abtract Extreme multi-label text classification(XMC)는 input text를 매우 많은 labels 중 가장 적절한 label로 태깅하는 것을 말한다. 최근, BERT와 같은 pre-trained language representation models은 많은 NLP .. 2021. 3. 25. [논문 리뷰] Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks - 2 simonezz.tistory.com/78 [논문 리뷰] Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks - 1 회사에서 프로젝트를 진행하면서 Domain adaption에 관한 질문을 텐플코에 올렸다가 추천받은 논문인데 마침 스터디 주제 논문도 이 논문이라 정리하는 겸 블로그에 작성하게 되었다. 발표된 이후 simonezz.tistory.com 위의 포스팅에서 이어지는 내용입니다. Task-Adaptive Pretraining 특정 tasks에 맞춰 큐레이트된 데이터셋은 넓은 도메인에서 오직 한 부분만 커버하는 경향이 있는데, 예를 들어, 화학물질과 단백질간의 관계를 추출하기 위해 CHEMPROT 데이터셋은 선택된 PubMed 카테.. 2021. 3. 10. [논문 리뷰] Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks - 1 회사에서 프로젝트를 진행하면서 Domain adaption에 관한 질문을 텐플코에 올렸다가 추천받은 논문인데 마침 스터디 주제 논문도 이 논문이라 정리하는 겸 블로그에 작성하게 되었다. 발표된 이후 많은 관심을 받고 있는 BERT를 회사에서나 특정 도메인에서 사용할 때 기존에 학습된 모델(KorBERT, HanBERT)를 사용하여 fine-tuning을 한다면 성능을 크게 기대하기 어려울 것이다. Pre-training시 이용한 위키피디아 데이터셋들은 적용하고자 하는 도메인과 많이 다르기 때문이다. 전에 읽었던 LegalBERT는 이러한 경우에 다음의 세가지 방법을 생각해볼수 있다고 했다. (a) use the original BERT out of the box (b) adapt BERT by addit.. 2021. 3. 7. 이전 1 2 3 4 다음 728x90 반응형