Я отвечаю на свой вопрос, но это интересная находка, и ее стоит поделиться, как предложил @thebluephantom.
Итак, здесь была ситуация с искровым кодом: я читал данные из 3 паркетных таблиц улья и строил набор данных,Сейчас в моем случае я читаю почти все столбцы из каждой таблицы (около 502 столбцов), и паркет не подходит для этой ситуации.Но интересным было то, что spark не создавал блоки (разделы) для моих данных и не кэшировал весь набор данных (~ 2 ГБ) всего за одного исполнителя.
Более того, во время моих итераций только один исполнитель выполнял все задачи.
Кроме того, spark.default.parallelism
и spark.sql.shuffle.partitions
не были под моим контролем.После изменения его в формат Avro я мог настроить разделы, перемешивание, задачи каждого исполнителя и т. Д. В соответствии со своими потребностями.
Надеюсь, это поможет!Спасибо.