спарк данных больше, чем объем памяти узла при объединении (1) - PullRequest
1 голос
/ 24 апреля 2019

я работаю на спарке 1.6.1

У меня есть распределенный фрейм данных, и он наверняка больше, чем все мои узлы в моем кластере.

Что будет, если я соберу все в узле?

df.coalesce(1)

Будет ли работа провалена?

Спасибо

1 Ответ

1 голос
/ 24 апреля 2019

Это точно не удастся, так как данные не поместятся в памяти. Если вы хотите вернуть один файл в качестве вывода, вы можете объединить файлы HDFS позже, используя HDFS getMerge.

Вы можете использовать утилиту для объединения нескольких файлов в один файл из нижеприведенного проекта git. https://github.com/gopal-tiwari/hdfs-file-merge

...