Описание проблемы
Я запускаю pyspark локально на компьютере Windows. Я периодически получаю файл не найдены ошибки о временных файлах. Например, приведенная ниже ошибка от df.distinct().count() == df.count()
, но эта строка кода иногда работает. Что может быть причиной и как ее решить?
Сообщение об ошибке
Py4JJavaError: Произошла ошибка при вызове o1380.count. : org. apache .spark.SparkException: задание прервано из-за сбоя этапа: задание 3 на этапе 289.0 не выполнено 1 раз, последний сбой: потерянное задание 3.0 на этапе 289.0 (TID 7751, localhost, драйвер исполнителя): java .io.FileNotFoundException: C: \ Users \ jbishop \ AppData \ Local \ Temp \ blockmgr-36cdf9ca-71ad-4341-ab77-a5b42f4fc6f8 \ 02 \ temp_shuffle_56a07610-c2c0-4691-b9c8-5f2ba указано)
Версии
pyspark 2.4.5 (пакет conda)
py4j 0.10.7
python 3.7
Windows 10