Работа с типом данных struct с помощью pysprak - PullRequest
0 голосов
/ 29 мая 2020

Я планирую обрабатывать тип данных структуры в pyspark, который учитывает тип данных карты в Dynamodb. Поскольку я планирую выполнять преобразования в таблице Dynamodb, которая имеет атрибут карты, я хочу добиться того же, используя pyspark. В этом случае я хочу обработать атрибут здоровья.

{
  "file_name": "employeesalarydata",
  "folder_name": "doc_consumption_employeesalarydata",
  "Health": {
    "New version - Veracity unavailable": "A new dataset is available but IDQ rules are not generated yet"
  },
  "last_modified_date": "2020-05-13T10:10:37.519Z",
  "resource_id": "6df1e646-a16d-11ea-a60e-d43b04339964"
}

1 Ответ

0 голосов
/ 29 мая 2020

Думаю, https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark. sql .functions.get_json_object должен помочь вам получить объект.

Пример:

import pyspark.sql.functions as f

spark.table('schema.table')\
.select(f.get_json_object('column_name', '$.Health').alias('health'))\
.show()
...