Question

Проблема в том, что у меня есть коллекция текстовых документов, я хочу подобрать наиболее похожий на входной.Входной текстовый документ может быть точно совпадает или частично изменен.Алгоритм должен быть очень быстрым.

В настоящее время я нашел simhash, чтобы взять отпечаток пальца из документов коллекции.Есть ли другой алгоритм, чтобы сделать то же самое?

Brian Spiering · Answer 1 · 30 декабря 2014

Методы LSH (локально-чувствительного хеширования) являются общими методами индексации. Они очень эффективны в поиске приблизительных ближайших соседей.

SimHash - это один алгоритм хеширования для LSH. Он использует косинусное сходство с реальными данными.

MinHash - еще один алгоритм хеширования для LSH. Он вычисляет сходство сходства по двоичным векторам.

Разработка массивного набора данных, глава 3 Ананда Раджарамана и Джеффа Уллмана. является хорошим введением в проблемное пространство и MinHash в частности.

Ajay · Answer 2 · 06 августа 2011

пробовали ли вы методы LSH (хеширование с учетом локальных особенностей)

Simhash как алгоритм для сравнения двух текстовых документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Simhash как алгоритм для сравнения двух текстовых документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы