У меня есть sql.DataFrame (который, я считаю, * 1001), который я хочу хранить в формате hdf. Я делаю это так:
df.write
.option("compression", "gzip")
.option("sep", "\t")
.option("header", "true")
.csv(some_hdfs_path)
Я не хочу делать repartition(1)
, так как файл может быть слишком большим.
К сожалению, он напишет, скажем, 10 файлов, каждый из которых содержит заголовок в качестве первой строки. В идеале я бы предпочел сначала файл с заголовком, а затем остальные без него.
Как лучше всего это сделать?
Спасибо