Вот картина ситуации:
![enter image description here](https://i.stack.imgur.com/SmTUR.png)
Мой код:
rdd = spark.read.format("avro").load(paths).rdd.repartition(160).flatMap(parse_source_data).repartition(20)
parse_source_data
дорогой Pythonфункция, которая отображается на все данные.Я вижу 160 задач, как и ожидалось.Spark утверждает, что 80 работают одновременно, как и ожидалось.Но на самом деле, похоже, что все задачи выполняются двумя исполнителями.
У кого-нибудь есть идеи?