обратная частота документа - PullRequest
1 голос
/ 28 января 2011

Частота обратных документов определяется следующим образом:

IDF (термин, документ) = tf (термин) * log (1 + n / df (термин))

где tf (термин) = «частота термина в документе», n = «количество документов», df (термин) = «количество документов, содержащих термин».

Просто любопытно, df (термин) - я считаю только документы, даже если он содержит термин более одного раза?

Также легко определить этот показатель с помощью lucene (.net)? Я только начинаю использовать последний и в настоящее время использую реляционную базу данных.

Спасибо.

Christian

Ответы [ 2 ]

4 голосов
/ 28 января 2011

Для использования idf с Lucene, проверьте API, например, здесь.

Вы правы в том, что документы учитываются только один раз.Идея состоит в том, чтобы получить функцию с нижней границей в части журнала.Например:

enter image description here

Если вам интересна теория idf за кулисами, вы можете заглянуть в этот документ.!

1 голос
/ 07 декабря 2012

Конечно, вы должны посчитать DF (термин) один раз. поэтому вы должны сгруппировать слова, чтобы получить разные слова.

Смотрите мой класс IDF здесь

...