Question

У меня есть хранилище файлов (75 000 файлов с большинством файлов <40 МБ и несколько мультигигабайтных видео- и графических файлов), и я хотел бы с помощью простого измерения определить сходство файлов в нем друг с другом. </p>

Я предполагаю, что он функционирует как хеш-ключ, за исключением инвертированного (хеш-ключ сильно отличается для небольших изменений в файле, это число будет немного отличаться для небольших изменений).Документы будут обработаны, и будет сгенерировано число, и эти числа или коды можно будет сравнить, чтобы выяснить, насколько похож один документ на другой.

Возможно ли это?Кто-нибудь знает какую-либо реализацию с открытым исходным кодом или даже алгоритм?Он должен охватывать произвольные типы файлов, поэтому поисковое решение (например, Apache Solr) - это не то, что я ищу.

NPE · Answer 1 · 17 декабря 2010

Я не могу предложить вам решение, но, возможно, стоит взглянуть на хеширование с учетом локальных особенностей .

qdot · Answer 2 · 17 декабря 2010

Пожалуйста, посмотрите в области биоинформатики, в частности, алгоритмы, используемые в BLAST и FASTA.

Это обычная исследовательская задача, на которой выявляются подстроки генетического кода, которые очень похожи для разных видов.

Оценка сходства файлов (языковой вопрос)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Оценка сходства файлов (языковой вопрос)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов