반응형 인공지능6 Pandas Library만을 이용하여 간단한 Content Based Filtering 구현하기 Content Based Filtering이란 말그대로 콘텐츠를 기반으로 필터링해서 추천해주는 알고리즘이다. 두 콘텐츠의 유사도는 콘텐츠의 특징에 기반하는데 예를 들면 영화의 경우에는 장르, 출연배우, 감독등이 있다. 오늘 구현에서 사용할 Dataset은 MovieLens dataset이다. "ml-latest-small.zip" 을 다운받고 압축을 풀면 links.csv, movies.csv, ratings.csv, tags.csv 파일이 있는데 우리는 여기서 movies.csv와 ratings.csv파일을 사용할 것이다. Data Visualization and Preprocessing 먼저 numpy 와 pandas를 가져오자. 그리고 다운받은 MovieLens dataset에서 ratings.cs.. 2020. 4. 27. Coursera 강의 리뷰 2 - TFIDF and Content-Based Filtering = Term Frequency * Inverse Document Frequency Term Frequency : 얼마나 자주 그 용어가 document에서 등장했나? 얼마나 그 document와 관련되었나? Inverse Document Frequency : 얼마나 적은 documents가 이 term을 가지고 있나? -> 이 term이 많은 documents에서 등장할수록 IDF value는 작아진다. 즉 어느곳에나 등장하는 term에는 관심없고 드문 term에 관심있다. log를 사용해서 함. document의 수가 너무 크기 때문. 예 ) "The Civil War"에 대해 찾아본다고 하면, IDF value는 "The"는 매우 자주 등장하는 Term. log1 = 0으로 수렴. 즉 no weigh.. 2020. 4. 23. 이전 1 2 다음 728x90 반응형