Question

Я выполняю SQL запрос от pyspark. Я загружаю данные запроса sql в файл CSV. Он генерирует много файлов деталей. Каждый файл детали имеет заголовок.

Я хочу один файл детали только с заголовком, а остальные файлы детали только с данными. Repartition & Coalesce занимает много времени, поэтому я не хочу go с этой опцией. Можно ли реализовать этот лог c в pyspark?

Я использую приведенный ниже код для запуска запроса и загрузки вывода в файл.

код:

df = sqlContext.sql(query)
df.write.format('com.databricks.spark.csv').mode('overwrite').save(targetpath, quote='',sep='|',header='True',nullValue=None)

Как создать один файл части с заголовком, а остальную часть данными только в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как создать один файл части с заголовком, а остальную часть данными только в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы