Я хотел бы иметь возможность сравнить двоичный файл X с каталогом других двоичных файлов и выяснить, какой другой файл больше всего похож на X. Характер данных таков, что между файлами будут существовать идентичные куски, но, возможно, сместился в месте. Все файлы имеют размер 1 МБ, а их около 200. Я хотел бы иметь что-то достаточно быстрое, чтобы проанализировать их за несколько минут или меньше на современном настольном компьютере.
Я немного погуглил и нашел несколько разных бинарных утилит, но ни одна из них не подходит для моего приложения.
Например, есть bsdiff, который выглядит так, как будто он создает какой-то файл патча, оптимизированный по размеру. Или vbindiff, который просто отображает различия в графическом виде, но, похоже, они не помогают мне понять, если один файл больше похож на X, чем другой файл.
Если нет инструмента, который я мог бы использовать непосредственно для этой цели, есть ли хорошая библиотека, которую кто-то мог бы порекомендовать для написания моей собственной утилиты? Python предпочтительнее, но я гибкий.