Question

• 1000

processed_data/year=2020/month=05/day=01/hour=00/yyy.parquet
processed_data/year=2020/month=05/day=01/hour=01/yyy.parquet
...

Мне кажется, если Spark может читать набор данных таким образом, что каждый исполнитель читает все файлы в разделе hour, это минимизирует перетасовку. Есть ли способ указать шаблон чтения раздела Spark?

thebluephantom · Answer 1 · 06 мая 2020

Лучший подход согласно этому документу: http://tantusdata.com/spark-shuffle-case-1-partition-by-and-repartition/

df.repartition...write.partitionBy..., чтобы избежать перетасовки и повышения производительности последующего чтения.

Spark partition discovery при чтении с базовый путь тоже может помочь.

mike · Answer 2 · 06 мая 2020

Я думаю, что лучше сохранить данные так, как вы хотите их читать, вместо того, чтобы пытаться настроить, как Spark загружает данные.

Вы можете прочитать все данные и разбить их на часов по своему усмотрению. Вероятно, вам нужно сначала создать столбец типа «год-месяц-день-час», но затем вы можете перераспределить свои данные на основе этого столбца.

df.repartition(col("year-month-day-hour")).write.format("parquet").save(path-to-file)

Spark принудительно выполняет секционирование при чтении

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark принудительно выполняет секционирование при чтении

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы