код для записи файла: df.coalesce(1).write.format("json").mode("append").save("/user/hive/warehouse/cpevoiceassistanteventhistory")
часть JSON данные из источника:
"event_header": {
"accept_language": null,
"app_id": "App_ID",
"app_name": null,
"client_ip_address": "IP",
"event_id": "ID",
"event_timestamp": null,
"offering_id": "Offering",
"server_ip_address": "IP",
"server_timestamp": 1492565987565,
"topic_name": "Topic",
"version": "1.0"
}
Вывод:
"event_header": {
"app_id": "App_ID",
"client_ip_address": "IP",
"event_id": "ID",
"offering_id": "Offering",
"server_ip_address": "IP",
"server_timestamp": 1492565987565,
"topic_name": "Topic",
"version": "1.0"
}
В приведенном выше Примеры ключей accept_language, app_name и event_timestamp были отброшены.
Этот код в scala, я хочу сделать то же самое в Pyspark, не получив идеального решения. Пожалуйста, нажмите на эту ссылку