Как перераспределить равные с помощью pyspark sql - PullRequest
0 голосов
/ 25 июня 2019

У меня есть некоторые данные с 10000 строк. Я хочу разделить его поровну не по столбцам. Это должно быть как 2000, 2000, 2000, 2000, 2000. Мы должны написать это как 2000 каждый.

Пробовал с коалесцией А также я пробовал раздел тоже. но это не одинаково распределено.

final.coalesce(4).write.mode('overwrite').option("header", "true")

1 Ответ

1 голос
/ 25 июня 2019

Вам придется использовать перераспределение вместо объединения. Объединение происходит быстрее, поскольку оно не перемешивается, но это может привести к неравномерному распределению разделов, как вы заметили.

final = final.repartition(5)

должен выполнить работу для номеров, которые вы даете.

...