Я получил данные в формате JSON от Kafka и считал данные в виде DataFrame в PySpark.
После того, как я получил данные из Kafka, они появились в формате DataFrame:
DataFrame[value: string]
Однако значение содержит формат JSON / DICT.
Печать устава и возврат:
def print_row(row):
print(row)
pass
testing.writeStream.foreach(print_row).start()
Row(value='{col_1 =80.0, timestamp=2020-01-13T08:58:58.164Z}')
Как преобразовать значение (JSON) в столбцы DATAFRAME, например:
col_1 timestamp
80.0 2020-01-13T08:58:58.164Z