Ошибка памяти панд при сохранении DataFrame в файл - PullRequest
0 голосов
/ 30 ноября 2018

В конце концов мне удалось соединить два больших блока данных на большой машине моей школы (память 512 ГБ).В настоящее время два человека используют одну и ту же машину, другой использует около 120 ГБ памяти, после того как я позвонил сборщику мусора, мы получили 420 ГБ.

Я хочу сохранить DataFrame в памяти, чтобы язатем я могу легко использовать его и перенести на другой компьютер, я попытался экспортировать его в файл паркета, но у меня возникает ошибка памяти ...

Так как мне удастся сбросить этот Dataframeна жестком диске с целью повторного использования без ошибки памяти, когда память уже почти заполнена?

Спасибо

Ответы [ 2 ]

0 голосов
/ 30 ноября 2018

Я не уверен, как он будет работать с таким большим набором данных, но вы можете использовать функцию панд to_csv, чтобы сохранить файл на жестком диске.

df.to_csv("filename.csv")

Если вы собираетесь работать с таким большим количеством данных в будущем, я мог бы предложить такой подход, как упомянутый здесь: https://stackoverflow.com/a/25962187/4852976

0 голосов
/ 30 ноября 2018

Есть несколько вариантов.Вы можете перехватить фрейм данных или использовать формат hdf5.Они будут занимать меньше памяти.Также, когда вы загрузите его в следующий раз, это будет быстрее, чем другие форматы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...