У меня есть таблица в Hive, которая имеет схему:
root
|-- startdate: string (nullable = true)
|-- enddate: string (nullable = true)
|-- items: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- _id: string (nullable = true)
| | |-- name: string (nullable = true)
| | |-- .......: string (nullable = true)
| | |-- otherfields: string (nullable = true)
Я хочу получить только _id и столбец имени из полей массива элементов, т.е.:
|-- items: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- _id: string (nullable = true)
| | |-- name: string (nullable = true)
естьспособ сделать это без дополнительных преобразований в самом Spark, чтобы только фактические столбцы были получены только из Hive?
Я использую Spark 2.2.