반응형 머신러닝1 Coursera 강의 리뷰 2 - TFIDF and Content-Based Filtering = Term Frequency * Inverse Document Frequency Term Frequency : 얼마나 자주 그 용어가 document에서 등장했나? 얼마나 그 document와 관련되었나? Inverse Document Frequency : 얼마나 적은 documents가 이 term을 가지고 있나? -> 이 term이 많은 documents에서 등장할수록 IDF value는 작아진다. 즉 어느곳에나 등장하는 term에는 관심없고 드문 term에 관심있다. log를 사용해서 함. document의 수가 너무 크기 때문. 예 ) "The Civil War"에 대해 찾아본다고 하면, IDF value는 "The"는 매우 자주 등장하는 Term. log1 = 0으로 수렴. 즉 no weigh.. 2020. 4. 23. 이전 1 다음 728x90 반응형