Хеширование сходства - PullRequest
       0

Хеширование сходства

7 голосов
/ 29 января 2011

Обычно цель хэширования - превратить непрерывную функцию в дискретную: небольшое изменение на входе должно вызвать большое изменение на выходе.Однако существует ли какой-либо алгоритм хеширования, который (очень) грубо говоря, возвращает одинаковые, но (все еще разные) хеши для аналогичных входных данных?

(Примером использования этого может быть проверка того, являются ли два файла«похоже», проверяя их хэши на сходство. Конечно, некоторые ошибки всегда допустимы.)

Ответы [ 2 ]

10 голосов
/ 29 января 2011

Посмотрите на Хеширование с учетом населенного пункта (LSH). Это вероятностный способ быстрого нахождения группы точек около заданной, например.

1 голос
/ 26 июня 2011

Учитывая функцию расстояния, которая сообщает вам, насколько похожи или различаются ваши объекты, вы также можете использовать перестановки расстояний: http://www.computer.org/portal/web/csdl/doi/10.1109/TPAMI.2007.70815 или эскизы: http://portal.acm.org/citation.cfm?id=1638180

Для реализации последнего подхода: http://obsearch.net

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...