Степень сходства - PullRequest
       23

Степень сходства

0 голосов
/ 04 января 2012

Я должен сравнить два документа и найти степень сходства.

Все, что мне нужно сделать, это сравнить два документа и дать число в результате.Число должно отображать степень сходства (аналогичные документы будут иметь большее число)

Я хочу эффективное средство для выполнения этого процесса.(Сходство измеряется не только по основам похожих слов, но также необходимо учитывать контекст)

Ответы [ 2 ]

0 голосов
/ 26 мая 2012

Если вам просто нужно быстрое, нематематическое описание и реализация (на Java), вот ссылка на решение n-грамм .

Подсказка: для произвольного текста используйте длину гальки 4 или 5 (это параметр алгоритма генерации подписи)

0 голосов
/ 20 января 2012

Проверить LSA (скрытый семантический анализ). Этот алгоритм просто проверяет сходство двух документов.

Здесь вы должны узнать о методике, называемой SVD (разложение по единственному значению)

Если вы хотите реализовать технику кластеризации документов, попробуйте использовать Matlab и установить инструмент Matlab-TMG.

...