Вы упомянули, что появившееся сообщение об ошибке указывает на превышение дисковой квоты. Я подозреваю, что Spark перетасовывает данные на диск, и на этом диске недостаточно места.
Чтобы смягчить это, вы должны попытаться явно передать --conf spark.local.dir=<path to disk with space>
в место с достаточным пространством. Этот параметр указывает, какой путь Spark будет использовать для записи временных данных на диск (например, при записи данных в случайном порядке между этапами вашей работы). Даже если ваши входные и выходные данные не слишком велики, некоторые алгоритмы могут генерировать очень большое количество случайных данных.
Вы также можете рассмотреть мониторинг выделенного / свободного пространства этого пути, используя du
во время выполнения задания, чтобы получить больше информации о том, сколько промежуточных данных записывается. Это подтвердит, что проблема заключается в большом количестве случайных данных, исчерпывающих доступное дисковое пространство.