cs '개발/UC Berkely CS182' 카테고리의 글 목록 (2 Page)
본문 바로가기
  • 매일 한걸음씩
  • 매일 한걸음씩
반응형

개발/UC Berkely CS18211

[Lecture 7] Initialization, Batch Normalization 이번 강의에서는 어떻게 모델을 "잘" 학습시킬지에 대한 전략들에 대해 다룬다. (마지막 파트에 대한 보충설명이 곧 추가될 예정) Part 1 : Batch Normalization 만약 모델을 학습시키는데 학습이 잘 안되는 경우에 어떻게 해야할까? Neural Net은 복잡하기에 다양한 전략을 사용해서 훈련시켜야한다.(이전 강의들에서 봤듯이, local minima등에 빠질 가능성이 너무 높다!!) 이에 사용할 수 있는 방법들로는 다음이 있다. 만약 데이터가 다음의 두 상황이라면 어떨까? 오른쪽의 경우가 왜 어려운 경우일까? 그래프로 확인할 수 있듯이 오른쪽에서는 첫번째 차원이 훨씬 크다. 이러한 경우에 왜 문제가 될 지 이전에 배운 back propagation으로 확인해보자. Loss function.. 2021. 5. 2.
[Lecture 5] Backpropagation www.youtube.com/watch?v=lKRatcD9hEg 이번 강의에서는 기본적인 Neural Network의 구조와 파라미터를 업데이트하는 방법인 BACK PROPAGATION에 대해 다룬다. Part 1 파라미터 업데이트 과정을 그레프로 봐보자. 이러한 flow를 생각해볼 때 Loss function은 다음과 같이 정의할 수 있다. 이러한 Loss를 MSE loss라고 한다. 또한, 모델을 Linear regression이라 칭할 수 있다. 이제 하나의 원소가 아닌 벡터단위에서 생각해보자. 여기서 X는 dot product가 된다. 보통 모델에서는 원소단위가 아니라 Matrix, Vector 단위이기에 벡터단위는 앞으로 생략하도록 한다. 다음으로는 Negative log-likelihood l.. 2021. 4. 18.
[Lecture 4] Optimization www.youtube.com/watch?v=CO3-sFmADfI Part 1 모델은 트레이닝과정에서 Loss function을 최적화시키면서 훈련된다. 여기서 Optimization에 대해 살펴보자. 파라미터 $\theta$는 다음과 같이 업데이트 되는데, 파라미터가 간단하게 2차원이라 했을 때 시각화한 그래프는 위와 같다.위의 그래프에서 검은 점이 최소의 점을 향해 업데이트되는 과정을 optimization이라 한다. 알고리즘은 두 가지 단계를 거치는데, 최소점으로의 방향을 찾고 적절하게 업데이트 시키는 과정이다.여기서 $\alpha$는 얼마나 업데이트를 시킬 건지를 말한다. 가장 널리 알려진 최적화방법인 Gradient Descent에 대해 알아보자.말그대로 Gradient(각 파라미터에 대해 미분한.. 2021. 4. 11.
[Lecture 3] Error Analysis Part 1 이번 강의에서는 error에 대한 분석이 주를 이룬다. Empirical risk and true risk 예를 들어, zero-one loss를 생각해보자. 이 loss는 말그대로 답이면 0, 아니면 1인 loss function이다. 여기서의 Risk는 loss function의 평균값을 의미한다. 하지만 학습하는 동안 우리는 위에 나와있는 확률분포 $p(x)$를 모른다. 그냥 데이터 $D$만 알뿐이다. 그러므로 $p(x)$와 같은 확률분포함수가 아닌 $(x_i, y_i)$와 같은 데이터쌍을 이용해서 risk를 계산해낸다. 앞 강의 Lecture 2에서 잠깐 소개한 supervised learning은 대개 empirical risk minimization을 하는 방식이다. 하지만 이 학.. 2021. 4. 4.
728x90
반응형