Question

Я работаю над очень большим набором данных с 20 миллионами записей.Я пытаюсь сохранить все эти данные в формате перьев для более быстрого доступа, а также добавить их, когда продолжу анализ.

Есть ли способ добавить фрейм данных панд в существующий файл формата перьев?

Uwe L. Korn · Answer 1 · 28 ноября 2018

Файлы пера предназначены для одновременной записи.Таким образом, добавление к ним не поддерживается.

Вместо этого я рекомендую вам для такого большого набора данных записать данные в отдельные файлы Apache Parquet с использованием pyarrow.parquet.write_table или * 1006.* и считайте данные также обратно в Панд, используя pyarrow.parquet.ParquetDataset или pandas.read_parquet.Эти функции могут обрабатывать коллекцию файлов Parquet как один набор данных, который одновременно считывается в один DataFrame.

Можно ли добавить в существующий файл формата Feathers?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Можно ли добавить в существующий файл формата Feathers?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы