Question

Я пытался найти сходство тысяч текстовых документов в одном запросе. И каждый размер документа в значительной степени варьируется (от 20 слов до 2000 слов)

Я действительно задавал вопрос: документы tf-idf различной длины

Но это не такЭто мне не поможет, потому что доля косинуса также имеет значение при сравнении с пулом документов для поддержания порядка.

Затем я наткнулся на замечательный блог по нормализации: Tf-Idf и сходство косинусов . Но проблема здесь в том, чтобы настроить TermFreq каждого документа.

Я использую sklearn для вычисления tf-idf. Но сейчас я ищу какую-то утилиту, похожую на производительность tf-idf в sklearn. Итеративный подход ко всем документам для расчета TF, а затем его изменения не только занимает много времени, но и неэффективен.

Любые знания / предложения приветствуются.

Нормализация частотной и обратной частоты документов различной длины документов для расчета косинусного сходства

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нормализация частотной и обратной частоты документов различной длины документов для расчета косинусного сходства

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы