Преобразовать столбец CSV во вложенное поле в json - PullRequest
0 голосов
/ 21 октября 2019

У меня есть CSV-файл с некоторыми столбцами в формате x; y; z. Я использую панды, чтобы прочитать эти данные, выполнить некоторую предварительную обработку и преобразовать в список объектов json, используя методы панд to_json / to_dict. При преобразовании этих специальных столбцов объект json для этого столбца должен иметь формат {x: {y: {z: value}}}. Могут быть разные столбцы, такие как x: y: z и x: y: a, и эти 2 необходимо объединить в один объект в результирующей записи json в формате, т. Е. {X: {y: {z: value1,a: value2}}}

CSV:

Id,Name,X;Y;Z,X;Y;A,X;B;Z
101,Adam,1,2,3
102,John,4,5,6
103,Sara,7,8,9

Вывод:

[ 
   { 
      "Id":101,
      "Name":"Adam",
      "X":{ 
         "Y":{ 
            "Z":1,
            "A":2
         },
         "B":{ 
            "Z":3
         }
      }
   },
   { 
      "Id":102,
      "Name":"John",
      "X":{ 
         "Y":{ 
            "Z":4,
            "A":5
         },
         "B":{ 
            "Z":6
         }
      }
   },
   { 
      "Id":103,
      "Name":"Sara",
      "X":{ 
         "Y":{ 
            "Z":7,
            "A":8
         },
         "B":{ 
            "Z":9
         }
      }
   }
]

1 Ответ

0 голосов
/ 21 октября 2019

Я обнаружил, что проще использовать pandas для сброса данных как диктовку, затем использовать рекурсивную функцию для перебора ключей, и там, где я сталкиваюсь с ключом, содержащим ;, я делю ключ по этому разделителю и рекурсивно создаювложенные дикты. Когда я достигаю последнего элемента в ключе разделения, я обновляю ключ с исходным значением и удаляю исходный ключ из указания.

import pandas as pd
from io import StringIO
import json

def split_key_to_nested_dict(original_dict, original_key, nested_dict, nested_keys):
    if nested_keys[0] not in nested_dict:
        nested_dict[nested_keys[0]] = {}
    if len(nested_keys) == 1:
        nested_dict[nested_keys[0]] = original_dict[original_key]
        del original_dict[original_key]
    else:
        split_key_to_nested_dict(original_dict, original_key, nested_dict[nested_keys[0]], nested_keys[1:])


csv_data = StringIO("""Id,Name,X;Y;Z,X;Y;A,X;B;Z
101,Adam,1,2,3
102,John,4,5,6
103,Sara,7,8,9""")
df = pd.DataFrame.from_csv(csv_data)
df.insert(0, df.index.name, df.index)
dict_data = df.to_dict('records')

for data in dict_data:
    keys = list(data.keys())
    for key in keys:
        if ';' in key:
            nested_keys = key.split(';')
            split_key_to_nested_dict(data, key, data, nested_keys)
print(json.dumps(dict_data))

OUTPUT

[{"Id": 101, "Name": "Adam", "X": {"Y": {"Z": 1, "A": 2}, "B": {"Z": 3}}}, {"Id": 102, "Name": "John", "X": {"Y": {"Z": 4, "A": 5}, "B": {"Z": 6}}}, {"Id": 103, "Name": "Sara", "X": {"Y": {"Z": 7, "A": 8}, "B": {"Z": 9}}}]

ФОРМАТИРОВАННЫЙ ВЫХОД

[
  {
    "Id": 101,
    "Name": "Adam",
    "X": {
      "Y": {
        "Z": 1,
        "A": 2
      },
      "B": {
        "Z": 3
      }
    }
  },
  {
    "Id": 102,
    "Name": "John",
    "X": {
      "Y": {
        "Z": 4,
        "A": 5
      },
      "B": {
        "Z": 6
      }
    }
  },
  {
    "Id": 103,
    "Name": "Sara",
    "X": {
      "Y": {
        "Z": 7,
        "A": 8
      },
      "B": {
        "Z": 9
      }
    }
  }
]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...