Как создать один файл части с заголовком, а остальную часть данными только в pyspark? - PullRequest
0 голосов
/ 29 января 2020

Я выполняю SQL запрос от pyspark. Я загружаю данные запроса sql в файл CSV. Он генерирует много файлов деталей. Каждый файл детали имеет заголовок.

Я хочу один файл детали только с заголовком, а остальные файлы детали только с данными. Repartition & Coalesce занимает много времени, поэтому я не хочу go с этой опцией. Можно ли реализовать этот лог c в pyspark?

Я использую приведенный ниже код для запуска запроса и загрузки вывода в файл.

код:

df = sqlContext.sql(query)
df.write.format('com.databricks.spark.csv').mode('overwrite').save(targetpath, quote='',sep='|',header='True',nullValue=None)
...