Apache Spark (Scala): Как мне извлечь отдельный элемент и подэлементы из JSON RDD и сохранить его в новом RDD? - PullRequest
0 голосов
/ 09 октября 2019

Я импортирую некоторые данные JSON из Amazon S3 и сохраняю их в СДР:

val data_sep22 = spark.read.json("s3://firehose-json-events-stream/2019/09/22/*/*")

Затем я беру вершину в структуру данных с помощью printSchema ()

scala> events_sep22.printSchema()
root
 |-- data: struct (nullable = true)
 |    |-- amount: string (nullable = true)
 |    |-- createdAt: string (nullable = true)
 |    |-- percentage: string (nullable = true)
 |    |-- status: string (nullable = true)
 |-- id: string (nullable = true)
 |-- publishedAt: string (nullable = true)

Как мне создать новый RDD с data и его подэлементами?

1 Ответ

1 голос
/ 10 октября 2019

Используйте выбор.

events_sep22.select("data").printSchema()

root
 |-- data: struct (nullable = true)
 |    |-- amount: string (nullable = true)
 |    |-- createdAt: string (nullable = true)
 |    |-- percentage: string (nullable = true)
 |    |-- status: string (nullable = true)

events_sep22.select("data.*").printSchema()

root
 |-- amount: string (nullable = true)
 |-- createdAt: string (nullable = true)
 |-- percentage: string (nullable = true)
 |-- status: string (nullable = true)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...