Question

Я сохранил свой фрейм данных в формате паркета

df.write.parquet('/my/path')

При проверке HDFS я вижу, что в каталоге паркет / my / path

есть 10 файлов part-xxx.snappy.parquet

Мой вопрос: соответствует ли один файл part-xxx.snappy.parquet разделу моего фрейма данных?

Shu · Answer 1 · 29 марта 2020

Да, часть - ** файлы создаются на основе number of partitions в кадре данных при записи в HDFS.

Для проверки number of partitions в кадре данных:

df.rdd.getNumPartitions()

Для контроля количества файлов, записываемых в файловую систему, мы можем использовать .repartition (or) .coalesce() (or) dynamically в зависимости от нашего требования.

bottaio · Answer 2 · 29 марта 2020

Да, это создает один файл на Spark-раздел.

Обратите внимание, что вы также можете разделить файлы по некоторому атрибуту:

df.write.partitionBy("key").parquet("/my/path")

, в таком случае Spark собирается создать Spark-разделу количество файлов для каждого паркет-раздела. Распространенным способом уменьшения количества файлов в этом случае является перераспределение данных по ключу перед записью (это фактически создает один файл на раздел).

Является ли один паркетный файл в папке партера разделом?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Является ли один паркетный файл в папке партера разделом?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы