Как мы узнаем, что данные равномерно распределены по кластеру в Spark? - PullRequest
0 голосов
/ 10 января 2019

Как мы узнаем, что данные равномерно распределены по кластеру в Spark

1 Ответ

0 голосов
/ 10 января 2019

Вы можете проверить то же самое в веб-интерфейсе Spark, где вы можете увидеть, сколько задач создается и как они выполняются в разных узлах. Вы также можете проверить, не перекосились ли ваши исполнители и не нашли ли вы время написать. Вы также можете работать с примером в реальном времени, взять файл объемом 15 ГБ и обработать файл на своих 4-узловых 16-ГБ компьютерах с 4 ядрами. После прочтения сделайте переразметку 10, выполните простое агрегирование и запишите в другой каталог. Вы сможете увидеть, как параллельные задачи создаются и выполняются в узлах задач.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...