У меня есть хранилище файлов (75 000 файлов с большинством файлов <40 МБ и несколько мультигигабайтных видео- и графических файлов), и я хотел бы с помощью простого измерения определить сходство файлов в нем друг с другом. </p>
Я предполагаю, что он функционирует как хеш-ключ, за исключением инвертированного (хеш-ключ сильно отличается для небольших изменений в файле, это число будет немного отличаться для небольших изменений).Документы будут обработаны, и будет сгенерировано число, и эти числа или коды можно будет сравнить, чтобы выяснить, насколько похож один документ на другой.
Возможно ли это?Кто-нибудь знает какую-либо реализацию с открытым исходным кодом или даже алгоритм?Он должен охватывать произвольные типы файлов, поэтому поисковое решение (например, Apache Solr) - это не то, что я ищу.