Python Pandas объединяет столбец списков - PullRequest
0 голосов
/ 12 февраля 2019

У меня есть простой фрейм данных df со столбцом списков lists.Я хотел бы создать дополнительный столбец на основе lists.

. df выглядит так:

import pandas as pd
lists={1:[[1]],2:[[1,2,3]],3:[[2,9,7,9]],4:[[2,7,3,5]]}
#create test dataframe
df=pd.DataFrame.from_dict(lists,orient='index')
df=df.rename(columns={0:'lists'})
df

          lists
1           [1]
2     [1, 2, 3]
3  [2, 9, 7, 9]
4  [2, 7, 3, 5]

Я бы хотел, чтобы df выглядело так:

df
Out[9]: 
          lists                 rolllists
1           [1]                       [1]
2     [1, 2, 3]              [1, 1, 2, 3]
3  [2, 9, 7, 9]     [1, 2, 3, 2, 9, 7, 9]
4  [2, 7, 3, 5]  [2, 9, 7, 9, 2, 7, 3, 5]

По сути, я хочу суммировать / 1013 * 2 скользящих списка.Обратите внимание, что в строке 1, потому что у меня есть только 1 список 1 , это список роликов.Но в строке 2 у меня есть 2 списка, которые я хочу добавить.Затем для третьей строки добавьте df[2].lists и df[3].lists и т. Д. Я работал над подобными вещами ранее, ссылаясь на это: Pandas Dataframe, Столбец списков, Создать столбец наборов совокупных списков и запись по различиям записей .
Кроме того, если мы можем получить эту часть выше, то я хочу сделать это в groupby (так, например, в приведенном ниже примере будет 1 группа, например, например, df может выглядеть следующим образомэто в groupby):

  Group         lists                 rolllists
1     A           [1]                       [1]
2     A     [1, 2, 3]              [1, 1, 2, 3]
3     A  [2, 9, 7, 9]     [1, 2, 3, 2, 9, 7, 9]
4     A  [2, 7, 3, 5]  [2, 9, 7, 9, 2, 7, 3, 5]
5     B           [1]                       [1]
6     B     [1, 2, 3]              [1, 1, 2, 3]
7     B  [2, 9, 7, 9]     [1, 2, 3, 2, 9, 7, 9]
8     B  [2, 7, 3, 5]  [2, 9, 7, 9, 2, 7, 3, 5]

Я пробовал разные вещи, такие как df.lists.rolling (2) .sum (), и я получаю эту ошибку:

TypeError: cannot handle this type -> object 

в Pandas 0.24.1 и unfortunatley в Pandas 0.22.0 команда не выдает ошибку, а вместо этого возвращает те же значения, что и в lists.Похоже, более новые версии Pandas не могут суммировать списки?Это второстепенная проблема.

Любите любую помощь!Веселитесь!

Ответы [ 2 ]

0 голосов
/ 12 февраля 2019

Как насчет этого?

rolllists = [df.lists[1].copy()]
for row in df.iterrows():
    index, values = row
    if index > 1:  # or > 0 if zero-indexed
        rolllists.append(df.loc[index - 1, 'lists'] + values['lists'])
df['rolllists'] = rolllists

Или как немного более расширяемая функция:

lists={1:[[1]],2:[[1,2,3]],3:[[2,9,7,9]],4:[[2,7,3,5]]}
df=pd.DataFrame.from_dict(lists,orient='index')
df=df.rename(columns={0:'lists'})

def rolling_lists(df, roll_period=2):
    new_roll, rolllists = [], [df.lists[1].copy()] * (roll_period - 1)
    for row in df.iterrows():
        index, values = row
        if index > roll_period - 1:  # or -2 if zero-indexed
            res = []
            for i in range(index - roll_period, index):
                res.append(df.loc[i + 1, 'lists'])  # or i if 0-indexed
            rolllists.append(res)
    for li in rolllists:
        while isinstance(li[0], list):
            li = [item for sublist in li for item in sublist]  # flatten nested list
        new_roll.append(li)
    df['rolllists'] = new_roll
    return df

Также легко расширяется до groupby, просто оберните ее в функцию и используйтеdf.apply(rolling_lists).Вы можете указать любое количество скользящих строк как roll_period.Надеюсь, это поможет!

0 голосов
/ 12 февраля 2019

Вы можете начать с

import pandas as pd
mylists={1:[[1]],2:[[1,2,3]],3:[[2,9,7,9]],4:[[2,7,3,5]]}
mydf=pd.DataFrame.from_dict(mylists,orient='index')
mydf=mydf.rename(columns={0:'lists'})
mydf = pd.concat([mydf, mydf], axis=0, ignore_index=True)
mydf['group'] = ['A']*4 + ['B']*4

# initialize your new series
mydf['newseries'] = mydf['lists']

# define the function that appends lists overs rows
def append_row_lists(data):
    for i in data.index:
        try: data.loc[i+1, 'newseries'] = data.loc[i, 'lists'] + data.loc[i+1, 'lists']
        except: pass
    return data

# loop over your groups
for gp in mydf.group.unique():
    condition = mydf.group == gp
    mydf[condition] = append_row_lists(mydf[condition])

Вывод

          lists Group                 newseries
0           [1]     A                       [1]
1     [1, 2, 3]     A              [1, 1, 2, 3]
2  [2, 9, 7, 9]     A     [1, 2, 3, 2, 9, 7, 9]
3  [2, 7, 3, 5]     A  [2, 9, 7, 9, 2, 7, 3, 5]
4           [1]     B                       [1]
5     [1, 2, 3]     B              [1, 1, 2, 3]
6  [2, 9, 7, 9]     B     [1, 2, 3, 2, 9, 7, 9]
7  [2, 7, 3, 5]     B  [2, 9, 7, 9, 2, 7, 3, 5]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...