я работаю на спарке 1.6.1
У меня есть распределенный фрейм данных, и он наверняка больше, чем все мои узлы в моем кластере.
Что будет, если я соберу все в узле?
df.coalesce(1)
Будет ли работа провалена?
Спасибо
Это точно не удастся, так как данные не поместятся в памяти. Если вы хотите вернуть один файл в качестве вывода, вы можете объединить файлы HDFS позже, используя HDFS getMerge.
Вы можете использовать утилиту для объединения нескольких файлов в один файл из нижеприведенного проекта git. https://github.com/gopal-tiwari/hdfs-file-merge