У меня есть каталог, состоящий из 22 подкаталогов. Всего каталог имеет размер около 750 ГБ, и мне нужны эти данные на GDrive, чтобы я мог работать с ним в Google Colab. Очевидно, что для загрузки требуется абсолютный возраст (особенно при медленном соединении), поэтому я хотел бы сжать его, загрузить, а затем распаковать в облаке. Я использую 7zip и архивирую каждый подкаталог, используя формат zip и «нормальный» уровень сжатия. (РЕДАКТИРОВАТЬ: Теперь можно подтвердить, что я получаю ту же ошибку для 7z и формата tar). Каждый подкаталог имеет размер от 14 до 20 ГБ. Затем я загружаю это и пытаюсь разархивировать его в Google Colab, используя следующий код:
drive.mount('/content/gdrive/')
!apt-get install p7zip-full
!7za x "/content/gdrive/My Drive/av_tfrecords/drumming_7zip.zip" -o"/content/gdrive/My Drive/unzipped_av_tfrecords/" -aos
Это извлекает некоторую часть файла zip перед выдачей ошибки. Есть множество ошибок, и иногда код даже не начнет разархивировать файл перед выдачей ошибки. Это самая распространенная ошибка:
Can not open the file as archive
ERROR: Unknown error -2147024891
Archives with Errors: 1
Если я попытаюсь повторно запустить команду !7za
, она может извлечь один или два файла из zip-файла, прежде чем выдать эту ошибку:
terminate called after throwing an instance of 'CInBufferException'
Он также может жаловаться на определенные файлы в zip-архиве:
ERROR: Headers Error : drumming/yt-g0fi0iLRJCE_23.tfrecords
Я также пытался использовать:
!unzip -n "/content/gdrive/My Drive/av_tfrecords/drumming_7zip.zip" -d "/content/gdrive/My Drive/unzipped_av_tfrecords/"
Но это только начинает выдавать ошибки:
file #254: bad zipfile offset (lseek): 8137146368
file #255: bad zipfile offset (lseek): 8168710144
file #256: bad zipfile offset (lseek): 8207515648
Хотя я бы предпочел решение в Colab, я также попытался использовать приложение в GDrive под названием «Zip Extractor». Но это также выдает ошибку и имеет квоту данных.
Это теперь происходит с 4 файлами zip, и каждый раз, когда я пробую что-то новое, пробуется много времени из-за скорости загрузки. Буду очень признателен за любые объяснения, почему это происходит и как я могу решить проблему. Также я понимаю, что, вероятно, есть альтернативы тому, что я пытаюсь сделать, и они будут признательны, даже если они не ответят прямо на вопрос. Спасибо!