Конфигурация главного узла Dataproc - PullRequest
0 голосов
/ 03 июля 2018

Мне интересно, насколько хорошим должен быть главный узел для spark. (Тип машины) Я видел, как люди говорили о рабочих узлах и ядрах / экземплярах исполнителя, но не могли найти никаких советов для главного узла. Я запускаю приложения в режиме кластера. Любой совет?

1 Ответ

0 голосов
/ 03 июля 2018

Это на самом деле зависит от размера кластера. Nanemode хранит дерево каталогов всех файлов в файловой системе и отслеживает, где в кластере хранятся данные файла.

Так что, если у вас большой кластер, вам нужно использовать мастер с большим объемом памяти.

Например, если у вас в кластере около 500 машин i3.8xlarge, у вас может быть ящик i3.8xlarge в качестве мастера. Однако, если у вас более 1000 таких блоков, вам действительно нужно использовать главный узел оптимизации памяти R4.

Если у вас относительно небольшой кластер, главный узел действительно не имеет значения. Если вы запускаете искровое задание в режиме кластера, драйвер запускается с любого основного узла, а не с главного. Таким образом, что касается искры, главный узел на самом деле не имеет значения. Однако для управления большим кластером главный узел должен быть больше.

...