Где взять слово "idf" для слов? - PullRequest
1 голос
/ 17 июня 2011

Я хочу рассчитать TF-IDF вес .Итак, для поиска idf мне нужна большая база разных документов.Затем я сделал другие БД с колонками- (слово / количество).Поэтому мой вопрос: «где я могу найти последнюю базу данных« idf »(или count) coef для слов»?Многие поисковые системы используют эту базу данных, возможно, можно найти эту базу данных в Интернете для разных языков?Я не хочу делать это самостоятельно.

1 Ответ

2 голосов
/ 17 июня 2011

idf - обратная частота документов.Другими словами, частота термина идет в знаменателе.Так что вы хотите, чтобы таблицы частоты слов. Викисловарь: списки частот должны помочь вам начать.Имейте в виду, что в этих списках слова с перегибом воспринимаются как одно и то же слово, например, быть, есть, есть, есть ....

...