У меня есть данные в формате паркета, которые слишком велики, чтобы уместиться в память (6 ГБ). Я ищу способ прочитать и обработать файл, используя Python 3.6. Есть ли способ для потоковой передачи файла, сокращения и сохранения в dataframe
? В конечном счете, я хотел бы иметь данные в формате dataframe
для работы.
Я ошибаюсь, пытаясь сделать это без использования рамки искры?
Я пытался использовать pyarrow
и fastparquet
, но у меня возникают ошибки памяти при попытке прочитать весь файл в.
Любые советы или предложения будут с благодарностью!