Лучше сначала определить схему (StructType
), а затем загрузить данные CSV, используя схему.
Вот как определить схему:
import org.apache.spark.sql.types._
val schema = StructType(Array(
StructField("DEST",StringType,true),
StructField("ORIG",StringType,true),
StructField("count",IntegerType,true)
))
Загрузить фрейм данных:
val df = spark.read.schema(schema).csv("./data/flight-data/csv/2015-summary.csv")
Надеюсь, это вам поможет.