Можно ли добавить в существующий файл формата Feathers? - PullRequest
0 голосов
/ 26 ноября 2018

Я работаю над очень большим набором данных с 20 миллионами записей.Я пытаюсь сохранить все эти данные в формате перьев для более быстрого доступа, а также добавить их, когда продолжу анализ.

Есть ли способ добавить фрейм данных панд в существующий файл формата перьев?

1 Ответ

0 голосов
/ 28 ноября 2018

Файлы пера предназначены для одновременной записи.Таким образом, добавление к ним не поддерживается.

Вместо этого я рекомендую вам для такого большого набора данных записать данные в отдельные файлы Apache Parquet с использованием pyarrow.parquet.write_table или * 1006.* и считайте данные также обратно в Панд, используя pyarrow.parquet.ParquetDataset или pandas.read_parquet.Эти функции могут обрабатывать коллекцию файлов Parquet как один набор данных, который одновременно считывается в один DataFrame.

...