반응형 전체105 [논문 리뷰] Siamese Neural Networks for One-shot Image Recognition 회사에서 모델을 만들기 위해 고민하다가 클래스당 이미지 수가 적어 어떻게 분류할 지 검색해보다가 가장 클래식(?)한 방법인 샴 네트워크를 사용해보는 게 어떨까 싶어 논문을 이 기회에 한 번 리뷰해보고자 한다. Abstract 보통의 이미지 분류 문제에서는 뉴럴 네트워크를 이용해서 이미지로부터 feature를 뽑아내어 예측하는 방식인데, 이는 계산량이 클뿐만 아니라 데이터가 부족할 때 해결하기가 어렵다. 이러한 경우에 사용되는 것이 "One-shot learning"인데, 이 분야는 새로운 클래스의 예시가 하나 주어졌을 때 예측하는 것이 가능하다. 이 논문에서는 샴 뉴럴 네트워크를 학습하는 방법에 대해 다루는데, 말그대로 쌍둥이처럼 닮은 네트워크 구조를 가진다. 인풋간의 유사도를 rank하는 방법으로 기존.. 2021. 5. 27. [논문 리뷰] ViT(Vision Transformer) : AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 오늘은 NLP에서 엄청난 성능을 보여주고 있는 트랜스포머를 비전 분야에 적용한 Vision Transformer에 대해 리뷰해보고자 한다. 이름만 들어보고 방법론에 대해 아예 몰라서 궁금하고 기대된다. Abstract 트랜스포머 구조가 자연어 처리 task들에서 사실상 표준이 되는 동안, 비전에 이를 적용한 사례는 한정되어왔다. 비전 분야에서 어텐션은 Convolutional network과 함께 적용되거나, Convolutional network의 특정 요소를 대체하기 위해 사용되었기 때문이다. 🌟 이 논문에서는 이러한 CNN에 대한 의존이 필요하지 않고 순수 트랜스포머가 곧바로 이미지 패치들에 사용되고 이미지 분류에 잘 작동함을 보여준다. 많은 양의 데이터에서 사전학습되고 여러 중간 사이즈나 작은 사.. 2021. 5. 26. [Lecture 10] Recurrent Neural Networks https://www.youtube.com/watch?v=PyZvbaC5oQY Part 1 오늘은 sequential data를 다루는데에 많이 사용되는 RNN에 대해 알아보자. 만약 우리가 사용하는 input의 사이즈가 변한다면 어떻게 될까? 예를 들어, 문장과 같은 인풋을 사용한다면 문장에 따라 길이가 계속해서 달라지게 된다. 아니면 비디오나 사운드와 같은 데이터인 경우에도 데이터에 따라 길이가 계속해서 다르다. 간단하게 생각해보면 max 길이가 5개라고 하면 5개미만의 데이터는 0으로 채우거나 이런 형태로 디자인을 할 수도 있다. 하지만 당연히 0으로 그냥 채워버리는 것이 최선의 아이디어는 아니다. 그럼 한 레이어에 한 개의 인풋이 들어간다고 하면 어떨까? 하나씩 레이어에 넣어주는 형태말이다. 각 .. 2021. 5. 23. [Lecture 9] Visualization and Style Transfer https://www.youtube.com/watch?v=VKPkM6jt_P0 Part 1 : Generating Images from CNNs 전까지 네트워크의 작동원리, 배치, 정규화와 같은 방법론에 대해 배웠다. 그럼 CNN와 같은 convolutional network같은 경우에 층을 거치면서 어떠한 데이터, 이미지를 "보는" 것일까? 이를 시각화해보고 확인해보고 싶은 생각이 자연스럽게 들 것이다. 이러한 확인을 통해 네트워크를 이해하고 좀 더 발전시킬 수 있기 때문이다. 이번 파트에서는 이러한 시각화에 대해 배운다. 어떤 것을 시각화해볼 수 있을까?/ 시각해보고 싶을까? 첫번째로는 filter 그 자체이다. weight라고도 말할 수 있다. 어떤 이미지 feature가 필터를 통해 나오는 것일까.. 2021. 5. 19. 이전 1 2 3 4 5 6 7 8 ··· 27 다음 728x90 반응형