Преобразование pandas кадра данных в JSON столбец объекта - PullRequest
0 голосов
/ 13 апреля 2020

У меня есть pandas фрейм данных, который содержит информацию о пользователе с несколькими заказами, и в каждом заказе есть несколько покупок товаров. Пример формата данных:

user_id | order_num | item_id | item_desc 
    1        1         1         red
    1        1         2         blue
    1        1         3         green

Я хочу преобразовать его в объект JSONb в столбце, чтобы можно было запросить его в postgresql. В настоящее время я использую следующий код:

j = (reg_test.groupby(['user_id', 'order_num'], as_index=False)
             .apply(lambda x: x[['item_id','item_desc']].to_dict('r'))
             .reset_index()
             .rename(columns={0:'New-Data'})
             .to_json(orient='records'))

Вот результат, который я получаю:

'''
[
          {
            "New-Data": [
              {
                "item_id": "1",
                "item_desc": "red",
              },
              {
                "item_id": "2",
                "item_desc": "blue",
              },
              {
                "item_id": "3",
                "item_desc": "green",
              }
            ],
            "order_number": "1",
            "user_id": "1"
          }
        ]
'''

Хотя это правильный формат json, я хочу, чтобы результат был похож это:

'''

[
  {
    "New-Data": [{
"1":
      {
        "item_id": "1",
        "item_desc": "red",
      },
"2": {
        "item_id": "2",
        "item_desc": "blue",
      },
"3":
      {
        "item_id": "3",
        "item_desc": "green",
      }
     }
    ],
    "order_number": "1",
    "user_id": "1"
  }
]
'''

Ответы [ 2 ]

1 голос
/ 13 апреля 2020

как альтернатива решению @ rpanai, я переместил обработку в vanilla python:

, преобразовав dataframe в dict:

M = df.to_dict("records")

создайте dict для элементов

items = [
         {key: value 
         for key, value in entry.items() 
         if key not in ("user_id", "order_num")}
         for entry in M
        ]
item_details = [{str(num + 1): entry}
                for num, entry
                in enumerate(items)]

print(item_details)

[{'1': {'item_id': 1, 'item_desc': 'red'}},
 {'2': {'item_id': 2, 'item_desc': 'blue'}},
 {'3': {'item_id': 3, 'item_desc': 'green'}}]

Инициализировать dict и добавить оставшиеся данные

d = dict()
d['New-Data'] = item_details

d['order_number'] = M[0]['order_num']
d['user_id'] = M[0]['user_id']

wrapper = [d]

print(wrapper)

[{'New-Data': [{'1': {'item_id': 1, 'item_desc': 'red'}},
   {'2': {'item_id': 2, 'item_desc': 'blue'}},
   {'3': {'item_id': 3, 'item_desc': 'green'}}],
  'order_number': 1,
  'user_id': 1}]
0 голосов
/ 13 апреля 2020

Рассматривали ли вы использовать пользовательскую функцию

import pandas as pd

df = pd.DataFrame({'user_id': {0: 1, 1: 1, 2: 1},
 'order_num': {0: 1, 1: 1, 2: 1},
 'item_id': {0: 1, 1: 2, 2: 3},
 'item_desc': {0: 'red', 1: 'blue', 2: 'green'}})

out = df.groupby(['user_id', 'order_num'])[["item_id", "item_desc"]]\
        .apply(lambda x: x.to_dict("records"))\
        .apply(lambda x: [{str(l["item_id"]):l for l in x}])\
        .reset_index(name="New-Data")\
        .to_dict("records")

, где out возвращает

[{'user_id': 1,
  'order_num': 1,
  'New-Data': [{'1': {'item_id': 1, 'item_desc': 'red'},
    '2': {'item_id': 2, 'item_desc': 'blue'},
    '3': {'item_id': 3, 'item_desc': 'green'}}]}]
...