написать набор данных / Dataframe с заголовком в scala-spark - PullRequest
0 голосов
/ 17 апреля 2019

У меня есть sql.DataFrame (который, я считаю, * 1001), который я хочу хранить в формате hdf. Я делаю это так:

 df.write
  .option("compression", "gzip")
  .option("sep", "\t")
  .option("header", "true")
  .csv(some_hdfs_path)

Я не хочу делать repartition(1), так как файл может быть слишком большим.

К сожалению, он напишет, скажем, 10 файлов, каждый из которых содержит заголовок в качестве первой строки. В идеале я бы предпочел сначала файл с заголовком, а затем остальные без него.

Как лучше всего это сделать?

Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...