Почему Spark отправляет все задания двум исполнителям? - PullRequest
0 голосов
/ 27 февраля 2019

Вот картина ситуации:

enter image description here

Мой код:

rdd = spark.read.format("avro").load(paths).rdd.repartition(160).flatMap(parse_source_data).repartition(20)

parse_source_data дорогой Pythonфункция, которая отображается на все данные.Я вижу 160 задач, как и ожидалось.Spark утверждает, что 80 работают одновременно, как и ожидалось.Но на самом деле, похоже, что все задачи выполняются двумя исполнителями.

У кого-нибудь есть идеи?

1 Ответ

0 голосов
/ 27 февраля 2019

Я создавал SparkContext для рабочих.Это предотвратило использование рабочих для фактической работы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...