Spark Job с использованием дискового хранилища HDFS для завершения работы - PullRequest
0 голосов
/ 11 февраля 2020

Когда я запускаю Spark-submit в EMR Cluster, который имеет свободное хранилище dfs 4 ГБ. Моя работа заключается в чтении 80 ГБ входного файла паркета и 4 ГБ файла паркета, выполнении преобразований и записи вывода в S3: //. Здесь работа не выполняется из-за недостаточного хранения hdfs.

Когда я очищаю хранилище dfs и освобождаю 10 ГБ свободного пространства hdfs: ///. Задание выполнено успешно.

Может ли кто-нибудь объяснить, как физическое хранилище hdfs помогает в выполнении Spark-задания, для чего оно используется во время преобразований. Как Spark делает вычисления в памяти.

...