Я импортирую некоторые данные JSON из Amazon S3 и сохраняю их в СДР:
val data_sep22 = spark.read.json("s3://firehose-json-events-stream/2019/09/22/*/*")
Затем я беру вершину в структуру данных с помощью printSchema ()
scala> events_sep22.printSchema()
root
|-- data: struct (nullable = true)
| |-- amount: string (nullable = true)
| |-- createdAt: string (nullable = true)
| |-- percentage: string (nullable = true)
| |-- status: string (nullable = true)
|-- id: string (nullable = true)
|-- publishedAt: string (nullable = true)
Как мне создать новый RDD с data
и его подэлементами?