Указать количество искровых исполнителей вручную - PullRequest
0 голосов
/ 04 ноября 2019

У меня есть 1000 файлов паркета, и я хочу, чтобы один исполнитель работал с каждым файлом на промежуточном этапе. Есть ли возможный способ, которым мы можем вручную назначить это свойство? По умолчанию спарк создает 34 задания для задания, что приводит к перекосу

1 Ответ

0 голосов
/ 04 ноября 2019

Вы можете сделать repartition на своем входном DataFrame / RDD и выполнить операции с результирующим DF / RDD.

changedDF = inputDF.repartition(500)

Вместо использования inputDF используйте changedDF для выполненияОперации, вы должны получить 500 тактов.

При необходимости, в DataFrame Вы также можете упомянуть список столбцов для перераспределения changedDF = inputDF.repartition(inputDF.col1)

...