Question

Когда я запускаю Spark-submit в EMR Cluster, который имеет свободное хранилище dfs 4 ГБ. Моя работа заключается в чтении 80 ГБ входного файла паркета и 4 ГБ файла паркета, выполнении преобразований и записи вывода в S3: //. Здесь работа не выполняется из-за недостаточного хранения hdfs.

Когда я очищаю хранилище dfs и освобождаю 10 ГБ свободного пространства hdfs: ///. Задание выполнено успешно.

Может ли кто-нибудь объяснить, как физическое хранилище hdfs помогает в выполнении Spark-задания, для чего оно используется во время преобразований. Как Spark делает вычисления в памяти.

Spark Job с использованием дискового хранилища HDFS для завершения работы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark Job с использованием дискового хранилища HDFS для завершения работы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы