Странное поведение с искрой сохранить паркет - PullRequest
0 голосов
/ 13 января 2020

Я испытываю довольно неожиданное поведение при попытке записать фрейм данных pyspark в виде паркета после выполнения нескольких операций очистки. То, что я заметил, - то, что, когда у меня есть многократные стадии, искры пишут только несколько записей. (выходной файл составляет всего 5 МБ и около 21 000 строк, тогда как я ожидаю около 110 МБ строк и 32 ГБ данных)

Однако в другом эксперименте, когда я просто загружаю фрейм данных из CSV, а затем записываю его без какой-либо очистки (только 1 этап). Записывает полный фрейм данных.

К вашему сведению: я использую блоки данных и пишу в azure хранилище больших двоичных объектов со следующим фрагментом кода.

df.write.mode("overwrite").option("header", "true").format("com.databricks.spark.csv").save('path')

enter image description here

Выходные файлы в BLOB-объекте: enter image description here

Любые пояснения или рекомендации

...