Нормализация частотной и обратной частоты документов различной длины документов для расчета косинусного сходства - PullRequest
0 голосов
/ 24 октября 2019

Я пытался найти сходство тысяч текстовых документов в одном запросе. И каждый размер документа в значительной степени варьируется (от 20 слов до 2000 слов)

Я действительно задавал вопрос: документы tf-idf различной длины

Но это не такЭто мне не поможет, потому что доля косинуса также имеет значение при сравнении с пулом документов для поддержания порядка.

Затем я наткнулся на замечательный блог по нормализации: Tf-Idf и сходство косинусов . Но проблема здесь в том, чтобы настроить TermFreq каждого документа.

Я использую sklearn для вычисления tf-idf. Но сейчас я ищу какую-то утилиту, похожую на производительность tf-idf в sklearn. Итеративный подход ко всем документам для расчета TF, а затем его изменения не только занимает много времени, но и неэффективен.

Любые знания / предложения приветствуются.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...