Как сжать большую папку в Windows 10, загрузить ее в GDrive, а затем распаковать? - PullRequest
1 голос
/ 01 апреля 2020

У меня есть каталог, состоящий из 22 подкаталогов. Всего каталог имеет размер около 750 ГБ, и мне нужны эти данные на GDrive, чтобы я мог работать с ним в Google Colab. Очевидно, что для загрузки требуется абсолютный возраст (особенно при медленном соединении), поэтому я хотел бы сжать его, загрузить, а затем распаковать в облаке. Я использую 7zip и архивирую каждый подкаталог, используя формат zip и «нормальный» уровень сжатия. (РЕДАКТИРОВАТЬ: Теперь можно подтвердить, что я получаю ту же ошибку для 7z и формата tar). Каждый подкаталог имеет размер от 14 до 20 ГБ. Затем я загружаю это и пытаюсь разархивировать его в Google Colab, используя следующий код:

drive.mount('/content/gdrive/')
!apt-get install p7zip-full
!7za x "/content/gdrive/My Drive/av_tfrecords/drumming_7zip.zip" -o"/content/gdrive/My Drive/unzipped_av_tfrecords/" -aos

Это извлекает некоторую часть файла zip перед выдачей ошибки. Есть множество ошибок, и иногда код даже не начнет разархивировать файл перед выдачей ошибки. Это самая распространенная ошибка:

Can not open the file as archive

ERROR: Unknown error -2147024891

Archives with Errors: 1

Если я попытаюсь повторно запустить команду !7za, она может извлечь один или два файла из zip-файла, прежде чем выдать эту ошибку:

terminate called after throwing an instance of 'CInBufferException'

Он также может жаловаться на определенные файлы в zip-архиве:

ERROR: Headers Error : drumming/yt-g0fi0iLRJCE_23.tfrecords

Я также пытался использовать:

!unzip -n "/content/gdrive/My Drive/av_tfrecords/drumming_7zip.zip" -d "/content/gdrive/My Drive/unzipped_av_tfrecords/"

Но это только начинает выдавать ошибки:

file #254:  bad zipfile offset (lseek):  8137146368

file #255:  bad zipfile offset (lseek):  8168710144

file #256:  bad zipfile offset (lseek):  8207515648

Хотя я бы предпочел решение в Colab, я также попытался использовать приложение в GDrive под названием «Zip Extractor». Но это также выдает ошибку и имеет квоту данных.

Это теперь происходит с 4 файлами zip, и каждый раз, когда я пробую что-то новое, пробуется много времени из-за скорости загрузки. Буду очень признателен за любые объяснения, почему это происходит и как я могу решить проблему. Также я понимаю, что, вероятно, есть альтернативы тому, что я пытаюсь сделать, и они будут признательны, даже если они не ответят прямо на вопрос. Спасибо!

...