Частота обратных документов определяется следующим образом:
IDF (термин, документ) = tf (термин) * log (1 + n / df (термин))
где tf (термин) = «частота термина в документе», n = «количество документов», df (термин) = «количество документов, содержащих термин».
Просто любопытно, df (термин) - я считаю только документы, даже если он содержит термин более одного раза?
Также легко определить этот показатель с помощью lucene (.net)? Я только начинаю использовать последний и в настоящее время использую реляционную базу данных.
Спасибо.
Christian