Question

Я испытываю довольно неожиданное поведение при попытке записать фрейм данных pyspark в виде паркета после выполнения нескольких операций очистки. То, что я заметил, - то, что, когда у меня есть многократные стадии, искры пишут только несколько записей. (выходной файл составляет всего 5 МБ и около 21 000 строк, тогда как я ожидаю около 110 МБ строк и 32 ГБ данных)

Однако в другом эксперименте, когда я просто загружаю фрейм данных из CSV, а затем записываю его без какой-либо очистки (только 1 этап). Записывает полный фрейм данных.

К вашему сведению: я использую блоки данных и пишу в azure хранилище больших двоичных объектов со следующим фрагментом кода.

df.write.mode("overwrite").option("header", "true").format("com.databricks.spark.csv").save('path')

Выходные файлы в BLOB-объекте:

Любые пояснения или рекомендации

Странное поведение с искрой сохранить паркет

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Странное поведение с искрой сохранить паркет

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы