Как сохранить все ключи с нулевыми значениями информационного кадра при записи его в JSON в Pyspark - PullRequest
0 голосов
/ 10 апреля 2020

код для записи файла: df.coalesce(1).write.format("json").mode("append").save("/user/hive/warehouse/cpevoiceassistanteventhistory")

часть JSON данные из источника:

"event_header": {
        "accept_language": null,
        "app_id": "App_ID",
        "app_name": null,
        "client_ip_address": "IP",
        "event_id": "ID",
        "event_timestamp": null,
        "offering_id": "Offering",
        "server_ip_address": "IP",
        "server_timestamp": 1492565987565,
        "topic_name": "Topic",
        "version": "1.0"
    }

Вывод:

"event_header": {
        "app_id": "App_ID",
        "client_ip_address": "IP",
        "event_id": "ID",
        "offering_id": "Offering",
        "server_ip_address": "IP",
        "server_timestamp": 1492565987565,
        "topic_name": "Topic",
        "version": "1.0"
    }

В приведенном выше Примеры ключей accept_language, app_name и event_timestamp были отброшены.

Этот код в scala, я хочу сделать то же самое в Pyspark, не получив идеального решения. Пожалуйста, нажмите на эту ссылку

...