В настоящее время я разрабатываю прототип для параллельной реализации SGD в PySpark. Все это работает довольно хорошо, но у меня есть проблема с распределением разделов между работниками.
После загрузки набора данных (проверка и обучение) я перераспределяю его на 2xNum_Executors разделы, но кажется, что все разделы идут на 2 или 3 исполнителя, а не на всех ( Распределение разделов для 5 работников ).
Код развертывается с использованием сценария spark-submit
в кластере Kubernetes
.
У меня следующий вопрос:
Предоставляет ли pyspark / Spark способ равномерного распределения разделов между рабочими?