Как извлечь очень большой файл в Google Colab - PullRequest
2 голосов
/ 16 марта 2020

Я пытаюсь извлечь файл 7z размером 14,6 ГБ (https://archive.org/download/stackexchange/stackoverflow.com-Posts.7z).

Я скачал и сохранил его на своем Google Диске. Я подключаю свой диск к Google Colab, а затем меняю текущий каталог, в котором находится файл: os.chdir('/content/drive/My Drive/.../')

Когда я пытаюсь разархивировать файл !p7zip -k -d stackoverflow.com-Posts.7z, он использует место на жестком диске текущего экземпляра, и во время этого процесс, он исчерпывает все доступное выделенное пространство на жестком диске, и, следовательно, разархивирование внезапно завершается.

Есть ли способ извлечь файл без использования места на жестком диске экземпляра ИЛИ сделать это порциями, чтобы извлечь успешно.

PS: Я считаю, что при распаковке размер файла составляет ~ 100 ГБ

1 Ответ

1 голос
/ 17 марта 2020

Вы можете попытаться прочитать данные по блокам, используя libarchive, без распаковки.

https://github.com/dsoprea/PyEasyArchive

Вот пример пример ноутбука

...