У меня есть файл json
в HDFS, я прочитал его:
var data = sqlContext.read.json("/.....")
Это схема, приведенная ниже:
|-- @timestamp: string (nullable = true)
|-- beat: struct (nullable = true)
| |-- hostname: string (nullable = true)
| |-- name: string (nullable = true)
| |-- version: string (nullable = true)
|-- fields: struct (nullable = true)
| |-- env: string (nullable = true)
| |-- env2: string (nullable = true)
| |-- env3: struct (nullable = true)
| | |-- format: string (nullable = true)
| | |-- name: string (nullable = true)
| | |-- version: double (nullable = true)
|-- input_type: string (nullable = true)
|-- text: string (nullable = true)
Я хочу сделать разделение поля text
, я пробовал:
var myRDD = data.select("text").rdd
var split_myRDD = myRDD.map(ligne => ligne.split("|"))
Не работает: ошибка: разделение значений не является членом org.apache.spark.sql.Row
Кто-то может сказать мне, в чем ошибка?