Lucene. Как построить матрицу term-doc - PullRequest
3 голосов
/ 21 января 2011


Мне нужно построить эту матрицу, но я не могу найти способ вычислить нормализованный TF-IDF для каждой ячейки. Нормализация, которую я бы выполнил, - это косинус-нормализация, то есть деление tf-idf (вычисляется с использованием DefaultSimility ) на 1 / кв.

Кто-нибудь знает, как это сделать?
Заранее спасибо
Антонио

1 Ответ

1 голос
/ 05 февраля 2011

Один способ, не используя Lucene, описан в блоге Суджита Пала . В качестве альтернативы, вы можете создать индекс Lucene, который имеет векторы терминов на поле, итерировать по терминам, чтобы получить idf, а затем итерировать по документам терминов, чтобы получить tf.

...