Как равномерно распределить разделы между исполнителями Spark в кластере Kubernetes? - PullRequest
0 голосов
/ 12 апреля 2019

В настоящее время я разрабатываю прототип для параллельной реализации SGD в PySpark. Все это работает довольно хорошо, но у меня есть проблема с распределением разделов между работниками.

После загрузки набора данных (проверка и обучение) я перераспределяю его на 2xNum_Executors разделы, но кажется, что все разделы идут на 2 или 3 исполнителя, а не на всех ( Распределение разделов для 5 работников ).

Код развертывается с использованием сценария spark-submit в кластере Kubernetes

.

У меня следующий вопрос: Предоставляет ли pyspark / Spark способ равномерного распределения разделов между рабочими?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...