Question

У меня есть sql.DataFrame (который, я считаю, * 1001), который я хочу хранить в формате hdf. Я делаю это так:

 df.write
  .option("compression", "gzip")
  .option("sep", "\t")
  .option("header", "true")
  .csv(some_hdfs_path)

Я не хочу делать repartition(1), так как файл может быть слишком большим.

К сожалению, он напишет, скажем, 10 файлов, каждый из которых содержит заголовок в качестве первой строки. В идеале я бы предпочел сначала файл с заголовком, а затем остальные без него.

Как лучше всего это сделать?

Спасибо

написать набор данных / Dataframe с заголовком в scala-spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

написать набор данных / Dataframe с заголовком в scala-spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов