Question

я работаю на спарке 1.6.1

У меня есть распределенный фрейм данных, и он наверняка больше, чем все мои узлы в моем кластере.

Что будет, если я соберу все в узле?

df.coalesce(1)

Будет ли работа провалена?

Спасибо

Gopal Tiwari · Answer 1 · 24 апреля 2019

Это точно не удастся, так как данные не поместятся в памяти. Если вы хотите вернуть один файл в качестве вывода, вы можете объединить файлы HDFS позже, используя HDFS getMerge.

Вы можете использовать утилиту для объединения нескольких файлов в один файл из нижеприведенного проекта git. https://github.com/gopal-tiwari/hdfs-file-merge

спарк данных больше, чем объем памяти узла при объединении (1)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

спарк данных больше, чем объем памяти узла при объединении (1)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы