Question

В настоящее время я разрабатываю прототип для параллельной реализации SGD в PySpark. Все это работает довольно хорошо, но у меня есть проблема с распределением разделов между работниками.

После загрузки набора данных (проверка и обучение) я перераспределяю его на 2xNum_Executors разделы, но кажется, что все разделы идут на 2 или 3 исполнителя, а не на всех ( Распределение разделов для 5 работников ).

Код развертывается с использованием сценария spark-submit в кластере Kubernetes

.

У меня следующий вопрос: Предоставляет ли pyspark / Spark способ равномерного распределения разделов между рабочими?

Как равномерно распределить разделы между исполнителями Spark в кластере Kubernetes?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как равномерно распределить разделы между исполнителями Spark в кластере Kubernetes?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов