Я испытываю довольно неожиданное поведение при попытке записать фрейм данных pyspark в виде паркета после выполнения нескольких операций очистки. То, что я заметил, - то, что, когда у меня есть многократные стадии, искры пишут только несколько записей. (выходной файл составляет всего 5 МБ и около 21 000 строк, тогда как я ожидаю около 110 МБ строк и 32 ГБ данных)
Однако в другом эксперименте, когда я просто загружаю фрейм данных из CSV, а затем записываю его без какой-либо очистки (только 1 этап). Записывает полный фрейм данных.
К вашему сведению: я использую блоки данных и пишу в azure хранилище больших двоичных объектов со следующим фрагментом кода.
df.write.mode("overwrite").option("header", "true").format("com.databricks.spark.csv").save('path')
Выходные файлы в BLOB-объекте:
Любые пояснения или рекомендации