Разбор действительно грязных вложенных строк JSON - PullRequest
0 голосов
/ 04 апреля 2019

У меня есть серия глубоко вложенных строк json в столбце данных pyspark. Мне нужно разобрать и отфильтровать на основе содержимого этих строк и хотел бы добавить их в виде столбцов. Я пытался определить StructTypes, но каждый раз он продолжает возвращать пустой DF.

Пробовал использовать json_tuples для разбора, но нет общих ключей для соединения с фреймами данных, и номера строк не совпадают? Я думаю, что это может иметь отношение к некоторым пустым полям

Подполе может быть обнуляемым

Образец JSON

{
  "TIME": "datatime",
  "SID": "yjhrtr",
  "ID": {
    "Source": "Person",
    "AuthIFO": {
      "Prov": "Abc",
      "IOI": "123",
      "DETAILS": {
        "Id": "12345",
        "SId": "ABCDE"
      }
    }
  },
  "Content": {
    "User1": "AB878A",
    "UserInfo": "False",
    "D": "ghgf64G",
    "T": "yjuyjtyfrZ6",
    "Tname": "WE ARE THE WORLD",
    "ST": null,
    "TID": "BPV 1431: 1",
    "src": "test",
    "OT": "test2",
    "OA": "test3",
    "OP": "test34
  },
  "Test": false
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...