Question

У меня есть куча больших файлов HDF5 (около 1.7G), которые разделяют большую часть их содержимого - я предполагаю, что более 95% данных каждого файла повторяются в каждом другом.

Я бы хотел сжать их в архиве.Моя первая попытка использовать GNU tar с параметром -z (gzip) не удалась: процесс был остановлен, когда архив достиг 50 ГБ (вероятно, ограничение размера файла, наложенное системным администратором).По-видимому, gzip не смог воспользоваться тем фактом, что файлы в этом параметре почти идентичны.

Сжатие этих конкретных файлов, очевидно, не требует очень сложного алгоритма сжатия, но веерия пациент один.Есть ли способ заставить gzip (или другой инструмент) обнаруживать эти большие повторяющиеся BLOB-объекты и не повторять их в архиве?

Mark Adler · Answer 1 · 24 октября 2018

Звучит так, как будто вам нужна бинарная программа сравнения.Вы можете использовать Google для этого, а затем попробовать использовать бинарный diff между двумя из них, а затем сжать один из них и получившийся diff.Вы можете получить фантазию и попробовать разложить все комбинации, выбрать самые маленькие для сжатия и отправить только один оригинал.

Сжатие больших, почти идентичных файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сжатие больших, почти идентичных файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы