Я пытаюсь обработать несколько папок с 810 отдельными файлами TIF.
Структура папки:
![enter image description here](https://i.stack.imgur.com/YlUdl.png)
При попытке создать для этого фрейм данных я сталкиваюсь с проблемой, что загруженные байт-массивы опорожнить. И мне, очевидно, они нужны для обработки.
Создание кадра данных:
spark = SparkSession \
.builder \
.appName(name) \
.config("spark.executor.memory", "2g") \
.config("spark.driver.memory", "2g") \
.config("spark.executor.cores", "2") \
.getOrCreate()
file_rdd = spark.read.format('image').load(argv[1] + '/' + '*/*')
Argv, очевидно, содержит базовую папку в качестве первого параметра. При отладке (с помощью отладчика или печати) я заметил, что мой фрейм данных представляет собой набор строк, для которых задан только источник, а все остальные значения либо -1, либо пустые.
![enter image description here](https://i.stack.imgur.com/lL679.png)
Мне в основном нужен массив байтов, а также источник. Хотя при наблюдении за памятью, используемой в моей системе, наблюдается явный всплеск, указывающий на то, что она определенно загружает что-то.
Я делаю что-то неправильно или не поддерживается?