хммм, мне нужно понять, насколько важно слово во всей коллекции документов , то есть , проиндексированное в люценовом индексе .Мне нужно извлечь некоторые «представимые слова», скажем, понятия, которые являются общими и могут быть представимы для всей коллекции.Или сборник "ключевых слов".Я выполнил полнотекстовое индексирование, и единственное поле, которое я использую, - это текстовое содержимое, поскольку заголовки документов в большинстве случаев не представляются (цифры, коды и т. Д.)
РЕДАКТИРОВАТЬ: я читаю индекс, который содержитможет быть 60 документов ....
int numDocs = fReader.numDocs();
while(termEnum.next())
{
Term term = termEnum.term();
double df = fReader.docFreq(term);
TermDocs termDocs = indexReader.termDocs(term);
//HERE is what i mean when i say tfidf is per document,
while(termDocs.next())
{
double tf = termDocs.freq();
// Calculate tfidf.......
}
termDocs.close();
}
Итак, я получу tfidf этого термина, но для каждого документа, который мы перебираем.И мне не нужны эти результаты:
tfidf (term1, doc1);
tfidf (term1, doc2);
tfidf (term1, doc3);........... и т. д.
Мне нужна некоторая мера важности этого термина в коллекции.По интуиции, это было бы что-то вроде «если бы термин« term1 »имел хороший tfidf в 5 документах, тогда это важно»
Но, конечно, что-то умнее:)
Спасибо !!!