Сначала Если вы работаете с Spark 2.0 или позже, попробуйте начать использовать SparkSession вместо SparkContext, а затем в качестве другого варианта, если количество столбцов невелико, я рекомендую вам в качестве хорошей практики
import org.apache.spark.sql.types._
val schema = StructType(
StructField("firstcolumn", StringType, true),
StructField("secondcolumn", IntegerType, true)
)
val df = spark.
read.
option("header", true).
schema(schema).
csv("file.csv")
Таким образом, вы можете выбрать столбец с правильным именем
val etl = df.select("firstcolumn").where("secondcolumn=0")