cs '개발' 카테고리의 글 목록 (7 Page)
본문 바로가기
  • 매일 한걸음씩
  • 매일 한걸음씩
반응형

개발92

[Lecture 4] Optimization www.youtube.com/watch?v=CO3-sFmADfI Part 1 모델은 트레이닝과정에서 Loss function을 최적화시키면서 훈련된다. 여기서 Optimization에 대해 살펴보자. 파라미터 $\theta$는 다음과 같이 업데이트 되는데, 파라미터가 간단하게 2차원이라 했을 때 시각화한 그래프는 위와 같다.위의 그래프에서 검은 점이 최소의 점을 향해 업데이트되는 과정을 optimization이라 한다. 알고리즘은 두 가지 단계를 거치는데, 최소점으로의 방향을 찾고 적절하게 업데이트 시키는 과정이다.여기서 $\alpha$는 얼마나 업데이트를 시킬 건지를 말한다. 가장 널리 알려진 최적화방법인 Gradient Descent에 대해 알아보자.말그대로 Gradient(각 파라미터에 대해 미분한.. 2021. 4. 11.
[Lecture 3] Error Analysis Part 1 이번 강의에서는 error에 대한 분석이 주를 이룬다. Empirical risk and true risk 예를 들어, zero-one loss를 생각해보자. 이 loss는 말그대로 답이면 0, 아니면 1인 loss function이다. 여기서의 Risk는 loss function의 평균값을 의미한다. 하지만 학습하는 동안 우리는 위에 나와있는 확률분포 $p(x)$를 모른다. 그냥 데이터 $D$만 알뿐이다. 그러므로 $p(x)$와 같은 확률분포함수가 아닌 $(x_i, y_i)$와 같은 데이터쌍을 이용해서 risk를 계산해낸다. 앞 강의 Lecture 2에서 잠깐 소개한 supervised learning은 대개 empirical risk minimization을 하는 방식이다. 하지만 이 학.. 2021. 4. 4.
[Lecture 2] Machine Learning Basics www.youtube.com/watch?v=aUNnGCxvAg0&list=PL_iWQOsE6TfVmKkQHucjPAoRtIJYt8a5A&index=4&t=1s Part 1 Learning problems의 종류 1. Supervised Learning - 가장 기본적인 알고리즘은 Classic linear regression problem - 지도학습은 쉽게 말하자면, x라는 이미지가 주어졌을 때 라벨 y를 예측하는 문제 👉🏻 즉, 답(라벨)이 있고 이에 맞춰 함수(네트워크)를 훈련시키는 방식이다. 2. Unsupervised Learning 그렇다면 unlabeled data는 어떻게 다뤄야 할까? (사실 대부분의 데이터는 라벨을 가지고 있지 않기 때문에) 👉🏻 네트워크를 통해 representatio.. 2021. 3. 28.
[논문 리뷰] X-BERT: eXtreme Multi-label Text Classification usingBidirectional Encoder Representations from Transformers 이 논문은 XMC를 BERT를 이용하여 푸는 모델에 대한 논문이다. 회사에서 BERT를 이용하여 text classification을 하려했는데 예제들을 보니 클래스가 많아봤자 5개 정도라 클래스가 많은 경우에는 어떻게 하나 싶어서 찾아보다가 이 논문을 찾았다. 하고자하는 task가 클래스가 1000개가 좀 넘기때문에 XMC라고 볼 수 있어 이 논문을 읽고 코드까지 보고 적용가능성을 판단하려고 한다. Abtract Extreme multi-label text classification(XMC)는 input text를 매우 많은 labels 중 가장 적절한 label로 태깅하는 것을 말한다. 최근, BERT와 같은 pre-trained language representation models은 많은 NLP .. 2021. 3. 25.
728x90
반응형