Существует Spark-11374 jira, сообщенный для этой проблемы и закрытый как won't fix
.
Возможные способы сделать это:
1.You can directly read the HDFS file:
spark.read.option("header","true").option("delimiter",",").csv("<hdfs_path>").show()
2.using hive query:
spark.sql("select * from <table_name> where <col_name1> != 'id'").show()