Оценка сходства файлов (языковой вопрос) - PullRequest
0 голосов
/ 17 декабря 2010

У меня есть хранилище файлов (75 000 файлов с большинством файлов <40 МБ и несколько мультигигабайтных видео- и графических файлов), и я хотел бы с помощью простого измерения определить сходство файлов в нем друг с другом. </p>

Я предполагаю, что он функционирует как хеш-ключ, за исключением инвертированного (хеш-ключ сильно отличается для небольших изменений в файле, это число будет немного отличаться для небольших изменений).Документы будут обработаны, и будет сгенерировано число, и эти числа или коды можно будет сравнить, чтобы выяснить, насколько похож один документ на другой.

Возможно ли это?Кто-нибудь знает какую-либо реализацию с открытым исходным кодом или даже алгоритм?Он должен охватывать произвольные типы файлов, поэтому поисковое решение (например, Apache Solr) - это не то, что я ищу.

Ответы [ 3 ]

2 голосов
/ 17 декабря 2010

Вы ищете simhashing, например, эту статью .

0 голосов
/ 17 декабря 2010

Я не могу предложить вам решение, но, возможно, стоит взглянуть на хеширование с учетом локальных особенностей .

0 голосов
/ 17 декабря 2010

Пожалуйста, посмотрите в области биоинформатики, в частности, алгоритмы, используемые в BLAST и FASTA.

Это обычная исследовательская задача, на которой выявляются подстроки генетического кода, которые очень похожи для разных видов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...