Сжатие больших, почти идентичных файлов - PullRequest
0 голосов
/ 23 октября 2018

У меня есть куча больших файлов HDF5 (около 1.7G), которые разделяют большую часть их содержимого - я предполагаю, что более 95% данных каждого файла повторяются в каждом другом.

Я бы хотел сжать их в архиве.Моя первая попытка использовать GNU tar с параметром -z (gzip) не удалась: процесс был остановлен, когда архив достиг 50 ГБ (вероятно, ограничение размера файла, наложенное системным администратором).По-видимому, gzip не смог воспользоваться тем фактом, что файлы в этом параметре почти идентичны.

Сжатие этих конкретных файлов, очевидно, не требует очень сложного алгоритма сжатия, но веерия пациент один.Есть ли способ заставить gzip (или другой инструмент) обнаруживать эти большие повторяющиеся BLOB-объекты и не повторять их в архиве?

1 Ответ

0 голосов
/ 24 октября 2018

Звучит так, как будто вам нужна бинарная программа сравнения.Вы можете использовать Google для этого, а затем попробовать использовать бинарный diff между двумя из них, а затем сжать один из них и получившийся diff.Вы можете получить фантазию и попробовать разложить все комбинации, выбрать самые маленькие для сжатия и отправить только один оригинал.

...