Pyspark выдаёт недетерминированный c файл, файл не найден - PullRequest
0 голосов
/ 25 февраля 2020

Описание проблемы

Я запускаю pyspark локально на компьютере Windows. Я периодически получаю файл не найдены ошибки о временных файлах. Например, приведенная ниже ошибка от df.distinct().count() == df.count(), но эта строка кода иногда работает. Что может быть причиной и как ее решить?

Сообщение об ошибке

Py4JJavaError: Произошла ошибка при вызове o1380.count. : org. apache .spark.SparkException: задание прервано из-за сбоя этапа: задание 3 на этапе 289.0 не выполнено 1 раз, последний сбой: потерянное задание 3.0 на этапе 289.0 (TID 7751, localhost, драйвер исполнителя): java .io.FileNotFoundException: C: \ Users \ jbishop \ AppData \ Local \ Temp \ blockmgr-36cdf9ca-71ad-4341-ab77-a5b42f4fc6f8 \ 02 \ temp_shuffle_56a07610-c2c0-4691-b9c8-5f2ba указано)

Версии

pyspark 2.4.5 (пакет conda)

py4j 0.10.7

python 3.7

Windows 10

...