Question

У меня есть требование сохранять каждый раздел фрейма данных spark в отдельном файле имени Dynami c в HDFS. Любые идеи, как реализовать методы параллельного распараллеливания

Ajay Kharade · Answer 1 · 06 марта 2020

Вы можете достичь этого, используя метод DataFrame.repartition(). Проблема с использованием coalesce(1) заключается в том, что ваш параллелизм падает до 1, и в лучшем случае он может быть медленным, а в худшем - ошибочным. Увеличение этого числа также не помогает - если вы делаете coalesce(10), вы получаете больше параллелизма, но в итоге получаете 10 файлов на раздел.

Чтобы получить один файл на раздел без использования coalesce(), используйте repartition() с теми же столбцами, для которых вы хотите, чтобы вывод был разделен.

import spark.implicits._
df.repartition($"col1", $"col2", $"col3", $"col4", $"col5").write.partitionBy("col1", "col2", "col3", "col4", "col5").mode(SaveMode.Append).parquet("$location")

Сохраните каждый раздел данных в отдельном файле в HDFS / S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сохраните каждый раздел данных в отдельном файле в HDFS / S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов