cs 매일 한걸음씩
본문 바로가기
  • 매일 한걸음씩
  • 매일 한걸음씩
반응형

전체 글105

[Lecture 4] Optimization www.youtube.com/watch?v=CO3-sFmADfI Part 1 모델은 트레이닝과정에서 Loss function을 최적화시키면서 훈련된다. 여기서 Optimization에 대해 살펴보자. 파라미터 $\theta$는 다음과 같이 업데이트 되는데, 파라미터가 간단하게 2차원이라 했을 때 시각화한 그래프는 위와 같다.위의 그래프에서 검은 점이 최소의 점을 향해 업데이트되는 과정을 optimization이라 한다. 알고리즘은 두 가지 단계를 거치는데, 최소점으로의 방향을 찾고 적절하게 업데이트 시키는 과정이다.여기서 $\alpha$는 얼마나 업데이트를 시킬 건지를 말한다. 가장 널리 알려진 최적화방법인 Gradient Descent에 대해 알아보자.말그대로 Gradient(각 파라미터에 대해 미분한.. 2021. 4. 11.
[Lecture 3] Error Analysis Part 1 이번 강의에서는 error에 대한 분석이 주를 이룬다. Empirical risk and true risk 예를 들어, zero-one loss를 생각해보자. 이 loss는 말그대로 답이면 0, 아니면 1인 loss function이다. 여기서의 Risk는 loss function의 평균값을 의미한다. 하지만 학습하는 동안 우리는 위에 나와있는 확률분포 $p(x)$를 모른다. 그냥 데이터 $D$만 알뿐이다. 그러므로 $p(x)$와 같은 확률분포함수가 아닌 $(x_i, y_i)$와 같은 데이터쌍을 이용해서 risk를 계산해낸다. 앞 강의 Lecture 2에서 잠깐 소개한 supervised learning은 대개 empirical risk minimization을 하는 방식이다. 하지만 이 학.. 2021. 4. 4.
일기) 2021년 3월 회고 벌써 2021년 4월이 되었다. 입사한지도 벌써 8개월이 넘었다. 지난 3월을 어떻게 지내왔는지 회고를 해보고자 한다. 사실 3월은 체력적으로 딸려서 계획한 것들을 많이 못해보았는데 4월부터 다시 달려야겠다.🔥🔥🔥 ✔️✔️: 만족스러울 정도로 달성하고 있음. ✔️ : 달성은 했으나 만족스럽지 않음. ❌ : 달성 안함. 1. 운동 (일주일에 4번 이상) 👉🏻 일주일 2번 정도 했다. ❌ 2. 핸드폰 줄이기 (스크린 타임 2시간 이하) 👉🏻사실 이건 애매한데 유투브로 노래듣는 경우가 많기 때문이다. 하지만 저번달보다 기상직후와 취침직전에 확실히 사용을 많이 했다.😂😂😂 ❌ 3. 아침 7시반 기상 👉🏻 전화영어때문에 일어나는데 전화영어 수업 후 다시 10분정도 자서 애매하다. 4월부터는 다시 정신차리고 일찍 .. 2021. 4. 1.
[Lecture 2] Machine Learning Basics www.youtube.com/watch?v=aUNnGCxvAg0&list=PL_iWQOsE6TfVmKkQHucjPAoRtIJYt8a5A&index=4&t=1s Part 1 Learning problems의 종류 1. Supervised Learning - 가장 기본적인 알고리즘은 Classic linear regression problem - 지도학습은 쉽게 말하자면, x라는 이미지가 주어졌을 때 라벨 y를 예측하는 문제 👉🏻 즉, 답(라벨)이 있고 이에 맞춰 함수(네트워크)를 훈련시키는 방식이다. 2. Unsupervised Learning 그렇다면 unlabeled data는 어떻게 다뤄야 할까? (사실 대부분의 데이터는 라벨을 가지고 있지 않기 때문에) 👉🏻 네트워크를 통해 representatio.. 2021. 3. 28.
[논문 리뷰] X-BERT: eXtreme Multi-label Text Classification usingBidirectional Encoder Representations from Transformers 이 논문은 XMC를 BERT를 이용하여 푸는 모델에 대한 논문이다. 회사에서 BERT를 이용하여 text classification을 하려했는데 예제들을 보니 클래스가 많아봤자 5개 정도라 클래스가 많은 경우에는 어떻게 하나 싶어서 찾아보다가 이 논문을 찾았다. 하고자하는 task가 클래스가 1000개가 좀 넘기때문에 XMC라고 볼 수 있어 이 논문을 읽고 코드까지 보고 적용가능성을 판단하려고 한다. Abtract Extreme multi-label text classification(XMC)는 input text를 매우 많은 labels 중 가장 적절한 label로 태깅하는 것을 말한다. 최근, BERT와 같은 pre-trained language representation models은 많은 NLP .. 2021. 3. 25.
[Lecture 1] Introduction www.youtube.com/watch?v=rSY1pVGdZ4I&list=PL_iWQOsE6TfVmKkQHucjPAoRtIJYt8a5A&index=1 Part 1 모델은 언어의 universal representation을 배우는 것과 같다. 그 후에 타겟 언어로 decoding하는 것이다. 만약에 모델이 더 common 언어에 대해서 학습이 되어있다면 rare 언어로 번역하는 것이 쉬울 것이다. 여기서 zero-shot machine translation에 대해서도 언급하였는데, zero-shot이라는 단어로부터 알 수 있듯이 한 번도 본적 없는 언어를 번역하는 것이다. 또한 multilingual translation model에서 만약 target 언어(desired language)가 40% sp.. 2021. 3. 20.
728x90
반응형