Вы работаете в нем на локальном компьютере или удаленно? Это автономный кластер / кластер пряжи, сколько у вас машин.
Вы можете проверить в Spark UI, чтобы посмотреть, сколько разделов? Для каждой машины у вас должно быть не менее 3 * 4 разделов - maxcan увеличится до 10000
Вместо того, чтобы перераспределять, объедините (1) только для одного раздела, это приведет к меньшему перемешиванию, и работа будет выполняться быстро. перераспределение вызывает больше перетасовки.