TF-IDF Corpus Возможно ли использовать дисперсию - PullRequest
1 голос
/ 12 марта 2011

Я занимаюсь разработкой программного обеспечения, которое нацелено на уникальную идентификацию веб-страницы, выполняя TF-IDF (сравнение с общим английским корпусом для удаления общих слов).Потребовалось некоторое время, чтобы найти хороший свободный корпус (http://www.wordfrequency.info/top5000.asp), однако этот корпус предоставляет только частоту и дисперсию. Он не говорит, сколько документов было включено в корпус, поэтому я не могу обработать таблицу IDF.включите значение дисперсии, которое находится в диапазоне от 0 до 1, где 1 означает, что слово встречается в каждом документе. Кто-нибудь знает (или может выяснить) способ получения аналогичной таблицы IDF с использованием этих данных? Также, если кто-то знает обесплатный корпус, который включает в себя информацию, в которой я нуждаюсь, был бы так же оценен. Спасибо

1 Ответ

4 голосов
/ 12 марта 2011
IDF = log (Total Documents in Corpus/Total Documents containing the term)

Если дисперсия представляет собой долю документов, содержащих термин, то: log (1/dispersion) будет IDF

...