Simhash как алгоритм для сравнения двух текстовых документов - PullRequest
1 голос
/ 13 июня 2011

Проблема в том, что у меня есть коллекция текстовых документов, я хочу подобрать наиболее похожий на входной.Входной текстовый документ может быть точно совпадает или частично изменен.Алгоритм должен быть очень быстрым.

В настоящее время я нашел simhash, чтобы взять отпечаток пальца из документов коллекции.Есть ли другой алгоритм, чтобы сделать то же самое?

Ответы [ 2 ]

2 голосов
/ 30 декабря 2014

Методы LSH (локально-чувствительного хеширования) являются общими методами индексации. Они очень эффективны в поиске приблизительных ближайших соседей.

SimHash - это один алгоритм хеширования для LSH. Он использует косинусное сходство с реальными данными.

MinHash - еще один алгоритм хеширования для LSH. Он вычисляет сходство сходства по двоичным векторам.

Разработка массивного набора данных, глава 3 Ананда Раджарамана и Джеффа Уллмана. является хорошим введением в проблемное пространство и MinHash в частности.

1 голос
/ 06 августа 2011

пробовали ли вы методы LSH (хеширование с учетом локальных особенностей)

...