Утилиты или библиотеки для поиска наиболее подходящего двоичного файла - PullRequest
0 голосов
/ 15 января 2010

Я хотел бы иметь возможность сравнить двоичный файл X с каталогом других двоичных файлов и выяснить, какой другой файл больше всего похож на X. Характер данных таков, что между файлами будут существовать идентичные куски, но, возможно, сместился в месте. Все файлы имеют размер 1 МБ, а их около 200. Я хотел бы иметь что-то достаточно быстрое, чтобы проанализировать их за несколько минут или меньше на современном настольном компьютере. Я немного погуглил и нашел несколько разных бинарных утилит, но ни одна из них не подходит для моего приложения.

Например, есть bsdiff, который выглядит так, как будто он создает какой-то файл патча, оптимизированный по размеру. Или vbindiff, который просто отображает различия в графическом виде, но, похоже, они не помогают мне понять, если один файл больше похож на X, чем другой файл.

Если нет инструмента, который я мог бы использовать непосредственно для этой цели, есть ли хорошая библиотека, которую кто-то мог бы порекомендовать для написания моей собственной утилиты? Python предпочтительнее, но я гибкий.

1 Ответ

0 голосов
/ 15 января 2010

Вот простой Perl-скрипт , который более или менее пытается сделать именно это.

Редактировать: Также взгляните на следующую нить stackoverflow .

...