반응형 개발/CV(Computer Vision)10 [논문 리뷰] Siamese Neural Networks for One-shot Image Recognition 회사에서 모델을 만들기 위해 고민하다가 클래스당 이미지 수가 적어 어떻게 분류할 지 검색해보다가 가장 클래식(?)한 방법인 샴 네트워크를 사용해보는 게 어떨까 싶어 논문을 이 기회에 한 번 리뷰해보고자 한다. Abstract 보통의 이미지 분류 문제에서는 뉴럴 네트워크를 이용해서 이미지로부터 feature를 뽑아내어 예측하는 방식인데, 이는 계산량이 클뿐만 아니라 데이터가 부족할 때 해결하기가 어렵다. 이러한 경우에 사용되는 것이 "One-shot learning"인데, 이 분야는 새로운 클래스의 예시가 하나 주어졌을 때 예측하는 것이 가능하다. 이 논문에서는 샴 뉴럴 네트워크를 학습하는 방법에 대해 다루는데, 말그대로 쌍둥이처럼 닮은 네트워크 구조를 가진다. 인풋간의 유사도를 rank하는 방법으로 기존.. 2021. 5. 27. [논문 리뷰] ViT(Vision Transformer) : AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 오늘은 NLP에서 엄청난 성능을 보여주고 있는 트랜스포머를 비전 분야에 적용한 Vision Transformer에 대해 리뷰해보고자 한다. 이름만 들어보고 방법론에 대해 아예 몰라서 궁금하고 기대된다. Abstract 트랜스포머 구조가 자연어 처리 task들에서 사실상 표준이 되는 동안, 비전에 이를 적용한 사례는 한정되어왔다. 비전 분야에서 어텐션은 Convolutional network과 함께 적용되거나, Convolutional network의 특정 요소를 대체하기 위해 사용되었기 때문이다. 🌟 이 논문에서는 이러한 CNN에 대한 의존이 필요하지 않고 순수 트랜스포머가 곧바로 이미지 패치들에 사용되고 이미지 분류에 잘 작동함을 보여준다. 많은 양의 데이터에서 사전학습되고 여러 중간 사이즈나 작은 사.. 2021. 5. 26. [논문 리뷰] Combination of Multiple Global Descriptors for Image Retrieval Image Retrieval 즉 이미지 검색과 관련된 논문을 검색하던 중 Paper with code에서 굉장히 높은 성능을 보여주는 것에 관심을 가져 본격적으로 리뷰를 하기로 결심했다. 네이버/라인 분들이 쓰신 논문이라 더 정이 가기도 한다. 암튼 시작!! Abstract 최근 이미지검색 연구들은 다른 모델들을 앙상블하고 다양한 global descriptors를 결합하는 방법이 성능을 개선한다는 것을 보여주고 있다. 하지만, 앙상블을 하기 위해 여러모델을 학습하는 것은 어렵고 시간과 메모리소모가 크다는 점에서 비효율적이다. 이 논문에서는 새로운 프레임워크를 제안하는데, 이는 여러 end-to-end방식으로 학습이 가능한 global descriptors를 통해 앙상블 효과를 갖는다. 이 프레임워크는 .. 2021. 5. 10. [논문 리뷰] Everybody Dance Now 오늘은 비디오 합성 분야의 논문인 Everybody Dance Now에 대해 리뷰를 해보겠습니다. 비디오 합성은 처음이라 조금 복잡한 내용이 많을 줄 알았는데 아주 간단하게 기존의 모델을 사용한 논문이라 이해하기가 쉬웠습니다.ㅎㅎ 실제 demo영상도 보니 간단한 모델에 비해 성능이 대단한 것을 확인할 수 있었습니다. www.youtube.com/watch?v=PCBTZh41Ris Abstract 이 논문은 "do as I do"라는 motion transfer방법에 대해 다룬다. 간단하게 flow를 설명하자면 source subject(ex. 발레리나 비디오)로부터 포즈를 뽑아내고 학습을 통해 이러한 포즈를 target subject로 매핑시키는 방법이다. Introduction 위와 같이 발레리나의 비.. 2021. 4. 28. 이전 1 2 3 다음 728x90 반응형