Question

Вот картина ситуации:

Мой код:

rdd = spark.read.format("avro").load(paths).rdd.repartition(160).flatMap(parse_source_data).repartition(20)

parse_source_data дорогой Pythonфункция, которая отображается на все данные.Я вижу 160 задач, как и ожидалось.Spark утверждает, что 80 работают одновременно, как и ожидалось.Но на самом деле, похоже, что все задачи выполняются двумя исполнителями.

У кого-нибудь есть идеи?

user1302130 · Answer 1 · 27 февраля 2019

Я создавал SparkContext для рабочих.Это предотвратило использование рабочих для фактической работы.

Почему Spark отправляет все задания двум исполнителям?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему Spark отправляет все задания двум исполнителям?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов