Я начинаю со Spark, и файл, который мне нужно проанализировать, имеет следующую форму:
"VARIABLE;MOD;LIBMOD"
"CDEXE;6;PBS between 25000 and 50000 euros"
Как получить набор данных [ValueDescriptor] из него?
Значение дескриптора:
case class ValueDescriptor(variableName: String, value:String, label: String)
Я только нашел, как удалять кавычки вокруг столбцов, а не вокруг каждой строки.
До сих пор я использовал такой код:
sparkSession
.read
.option("header", "true")
.option("delimiter", ";")
.csv("file.txt")
.withColumnRenamed("VARIABLE", "variableName")
.withColumnRenamed("MOD", "value")
.withColumnRenamed("LIBMOD", "label")
.as[ValueDescriptor]