Я ищу способ разделить все мои фреймы данных в моем приложении по размеру доступного ядра. Если мои доступные ядра (количество исполнителей * количество ядер на одного исполнителя) равны 20, то я хочу перераспределить всемой фрейм данных до 20 ..
Единственный способ, которым я могу увидеть перераспределение моего фрейма данных, - df.repartition(20)
, но я хочу применить это для всех фреймов данных, которые существуют в моем приложении, без необходимости писать df.repartition(20)
для каждогоdataframe.
Изменение параметра spark.default.parallelism не работает, поскольку он применяется только тогда, когда вы работаете с RDD (API нижнего уровня), а не с фреймом данных ..
Есть ли какие-либо предложения по этому поводу?