Я получил ошибку после загрузки файла изображения с помощью pyspark:
Apple_Crimson_Snow = spark.read.format ('image'). Load ("C: \ Users \ BIN \ Training \ Apple Crimson Snow ") Apple_Crimson_Snow.count () Вывод: 40
Приведенный выше код был успешным, поскольку мне удалось распечатать вывод: 40 Однако, когда я пытаюсь запустить .collect () или .take () , он говорит, что некоторые файлы отсутствуют, что не соответствует действительности, потому что я вижу эти файлы в своем локальном файле папка
Кстати, я запускаю pyspark в блокноте jupyter на Windows
Вот ошибка:
Произошла ошибка при вызове o4280.collectTo Python. : org. apache .spark.SparkException: задание прервано из-за сбоя этапа: задание 1 на этапе 524.0 не выполнено 1 раз, последний сбой: потерянное задание 1.0 на этапе 524.0 (TID 4460, DESKTOP-BME0OTT, драйвер исполнителя): java .io.FileNotFoundException: файл File: / C: / Users / BIN / Training / Apple% 20Crimson% 20Snow / r_126_100.jpg не существует Возможно, базовые файлы были обновлены. Вы можете явно аннулировать кэш в Spark, запустив команду 'REFRE SH TABLE tableName' в SQL или воссоздав соответствующий набор данных / DataFrame.