Ниже приведен код для сохранения данных в другом формате, например,
- CSV
- Паркет
- Avro
- orc
- Json
Также вы можете настроить другое сжатие при сохранении данных, ниже приведен пример кода для того же самого,
df.write
.format("com.databricks.spark.csv")
.option("header", "true")
.option("codec", "org.apache.hadoop.io.compress.GzipCodec")
.save("newcars.csv.gz")
==============================================================================
df.write
.format("orc")
.mode("overwrite")
.option("codec", "org.apache.hadoop.io.compress.GzipCodec")
.saveAsTable("tbl_nm")