Чтобы добавить зависимость, запустите оболочку spark, используя следующую команду:
spark-shell --packages com.databricks: spark-csv_2.10: 1.5.0
Считайте ваш файл paraquet, используя:
val df = sqlContext.read.parquet("file:///home/mugdha/users.parquet")
Применить фильтр, выберите операции:
val filteredDF = df.select("name","favorite_color")
Чтобы сохранить отфильтрованный файл, вы можете использовать следующий код:
filteredDF.write.format("com.databricks.spark.csv").save("file:///home/mugdha/testSave")
Внутри папки testSave вы можете проверить сохраненный CSV.