Я пытался найти сходство тысяч текстовых документов в одном запросе. И каждый размер документа в значительной степени варьируется (от 20 слов до 2000 слов)
Я действительно задавал вопрос: документы tf-idf различной длины
Но это не такЭто мне не поможет, потому что доля косинуса также имеет значение при сравнении с пулом документов для поддержания порядка.
Затем я наткнулся на замечательный блог по нормализации: Tf-Idf и сходство косинусов . Но проблема здесь в том, чтобы настроить TermFreq каждого документа.
Я использую sklearn
для вычисления tf-idf. Но сейчас я ищу какую-то утилиту, похожую на производительность tf-idf в sklearn. Итеративный подход ко всем документам для расчета TF, а затем его изменения не только занимает много времени, но и неэффективен.
Любые знания / предложения приветствуются.