Я выполняю SQL запрос от pyspark. Я загружаю данные запроса sql в файл CSV. Он генерирует много файлов деталей. Каждый файл детали имеет заголовок.
Я хочу один файл детали только с заголовком, а остальные файлы детали только с данными. Repartition & Coalesce занимает много времени, поэтому я не хочу go с этой опцией. Можно ли реализовать этот лог c в pyspark?
Я использую приведенный ниже код для запуска запроса и загрузки вывода в файл.
код:
df = sqlContext.sql(query)
df.write.format('com.databricks.spark.csv').mode('overwrite').save(targetpath, quote='',sep='|',header='True',nullValue=None)