Question

Предположим, у меня несколько списков

A = [1, 2, 3]
B = [1, 4]

, и я хочу сгенерировать Pandas DataFrame в длинном формате следующим образом:

type | value
------------
A    | 1
A    | 2
A    | 3
B    | 1
B    | 4

Какой самый простой способ добиться этого?Путь над широким форматом и расплавлением невозможен (?), Поскольку списки могут иметь разную длину.

Menglong Li · Answer 1 · 06 декабря 2018

Проверьте, это заимствует идею из 3-х библиотек языков программирования dplyr, tidyr, R, следующий код предназначен только для демонстрации, поэтому я создал два df: df1, df2, вы можете динамически создавать dfs и объединять их:

import pandas as pd


def gather(df, key, value, cols):
    id_vars = [col for col in df.columns if col not in cols]
    id_values = cols
    var_name = key
    value_name = value
    return pd.melt(df, id_vars, id_values, var_name, value_name)


df1 = pd.DataFrame({'A': [1, 2, 3]})

df2 = pd.DataFrame({'B': [1, 4]})

df_messy = pd.concat([df1, df2], axis=1)

print(df_messy)

df_tidy = gather(df_messy, 'type', 'value', df_messy.columns).dropna()

print(df_tidy)

И вы получили вывод для df_messy

вывод для df_tidy

  type  value
0    A    1.0
1    A    2.0
2    A    3.0
3    B    1.0
4    B    4.0

PS: Запомните, чтобы преобразовать тип значений из типа float в тип int,Я просто записал это для демонстрации и не уделил слишком много внимания деталям.

jpp · Answer 2 · 06 декабря 2018

Вот решение на основе NumPy с использованием словарного ввода:

d = {'A': [1, 2, 3],
     'B': [1, 4]}

keys, values = zip(*d.items())

res = pd.DataFrame({'type': np.repeat(keys, list(map(len, values))),
                    'value': np.concatenate(values)})

print(res)

  type  value
0    A      1
1    A      2
2    A      3
3    B      1
4    B      4

jezrael · Answer 3 · 06 декабря 2018

Создать словарь для type s и создать список кортежей по списку:

A = [1, 2, 3]
B = [1, 4]

d = {'A':A,'B':B}

print ([(k, y) for k, v in d.items() for y in v])
[('A', 1), ('A', 2), ('A', 3), ('B', 1), ('B', 4)]

df = pd.DataFrame([(k, y) for k, v in d.items() for y in v], columns=['type','value'])
print (df)
  type  value
0    A      1
1    A      2
2    A      3
3    B      1
4    B      4

Другое решение, если вход представляет собой список списков и type s должны быть целыми числами:

L = [A,B]
df = pd.DataFrame([(k, y) for k, v in enumerate(L) for y in v], columns=['type','value'])
print (df)
   type  value
0     0      1
1     0      2
2     0      3
3     1      1
4     1      4

Панды длинного формата DataFrame из нескольких списков разной длины

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Панды длинного формата DataFrame из нескольких списков разной длины

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов