Question

У меня есть df_in, где один из столбцов имеет значение list из lists из dicts:

df_in = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [
        [{'B1': 1, 'B2': 2, 'B3': 3}, {'B1': 4, 'B2': 5, 'B3': 6}, {'B1': 7, 'B2': 8, 'B3': 9}],
        [{'B1': 10, 'B2': 11, 'B3': 12}],
        [{'B1': 13, 'B2': 14, 'B3': 15}, {'B1': 16, 'B2': 17, 'B3': 18}]
    ],
    'C': ['a', 'b', 'c']
})

df_in
    A   B                                                   C
0   1   [{'B1': 1, 'B2': 2, 'B3': 3}, {'B1': 4, 'B2': ...   a
1   2   [{'B1': 10, 'B2': 11, 'B3': 12}]                    b
2   3   [{'B1': 13, 'B2': 14, 'B3': 15}, {'B1': 16, 'B...   c

Что я хочу достичь, так это общий подход к распаковке B так что (1) каждый уникальный ключ (B1, B2 и B3 в этом случае) помещается в столбец. И (2) складывать множественные списки в каждом ряду в качестве новых наблюдений. Я думаю, что выходной пример объясняет это лучше всего:

df_out = pd.DataFrame({
    'A': [1, 1, 1, 2, 3, 3],
    'B1': [1, 4, 7, 10, 13, 16],
    'B2': [2, 5, 8, 11, 14, 17],
    'B3': [3, 6, 9, 12, 15, 18],
    'C': ['a', 'a', 'a', 'b', 'c', 'c']
})

df_out
    A   B1  B2  B3  C
0   1   1   2   3   a
1   1   4   5   6   a
2   1   7   8   9   a
3   2   10  11  12  b
4   3   13  14  15  c
5   3   16  17  18  c

Есть идеи?

jezrael · Answer 1 · 26 февраля 2020

Используйте словарное понимание с concat и DataFrame.pop для столбца извлечения:

df1 = pd.concat({k: pd.DataFrame(x) for k, x in df_in.pop('B').items()})
print (df1)
     B1  B2  B3
0 0   1   2   3
  1   4   5   6
  2   7   8   9
1 0  10  11  12
2 0  13  14  15
  1  16  17  18

Добавить исходные данные с помощью DataFrame.join и для правильного заказа извлеките и добавьте столбец C:

df = df_in.join(df1.reset_index(level=1, drop=True)).reset_index(drop=True)
df['C'] = df.pop('C')
print (df)
   A  B1  B2  B3  C
0  1   1   2   3  a
1  1   4   5   6  a
2  1   7   8   9  a
3  2  10  11  12  b
4  3  13  14  15  c
5  3  16  17  18  c

Альтернативное решение с DataFrame.assign, для правильного заказа используется DataFrame.insert :

df1 = pd.concat([pd.DataFrame(v['B']).assign(A=v['A'], C=v['C']) 
                   for k, v in df_in.to_dict('index').items()], ignore_index=True)
df1.insert(0, 'A', df1.pop('A'))
print (df1)
   A  B1  B2  B3  C
0  1   1   2   3  a
1  1   4   5   6  a
2  1   7   8   9  a
3  2  10  11  12  b
4  3  13  14  15  c
5  3  16  17  18  c

Sayandip Dutta · Answer 2 · 26 февраля 2020

Вы можете попробовать df.explode, чтобы разбить список диктов, затем прочитать дикты как кадр данных и добавить к df_in:

df_in = df_in.explode('B')

df_out = pd.concat([df_in.reset_index(drop=True), 
                    pd.DataFrame(df_in['B'].tolist())], 
                    axis=1).drop('B', axis = 1).sort_index(axis=1)

df_out

   A  B1  B2  B3  C
0  1   1   2   3  a
1  1   4   5   6  a
2  1   7   8   9  a
3  2  10  11  12  b
4  3  13  14  15  c
5  3  16  17  18  c

Распаковка списка списков диктов в столбце Pandas данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Распаковка списка списков диктов в столбце Pandas данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов