Панды Умножьте несколько столбцов в цикле - PullRequest
4 голосов
/ 21 мая 2019

У меня есть датафрейм df с 4 столбцами, A, B, C & D

Я хочу умножить каждую комбинацию этих столбцов.

Пока у меня есть;

columns=[A,B,C,D]

a= combinations(columns)

for i in a:
    df[outname]=df[a].multiply()

но, очевидно, это не правильно.

Может кто-нибудь видит хороший путь?

Выход:

   A   B   C   D   AB   AC   AD   BC   ABC    and so on
0
1
2
3
4
6
7

Ответы [ 4 ]

5 голосов
/ 21 мая 2019

Используйте функцию из this для поиска всех комбинаций и в представлении списка создайте все произведения значений:

df = pd.DataFrame({
         'A':[5,3,6,9,2,4],
         'B':[4,5,4,5,5,4],
         'C':[7,8,9,4,2,3],
         'D':[1,3,5,7,1,0],

})

from itertools import chain, combinations
def all_subsets(ss):
    return chain(*map(lambda x: combinations(ss, x), range(1, len(ss)+1)))

#get all combination
tups = list(all_subsets(df.columns))
#for each combination multiple values
df1 = pd.concat([df.loc[:,c].product(axis=1) for c in tups], axis=1)
#set new columns by join list of tuples tups
df1.columns = [''.join(x) for x in tups]
print (df1)
   A  B  C  D  AB  AC  AD  BC  BD  CD  ABC  ABD  ACD  BCD  ABCD
0  5  4  7  1  20  35   5  28   4   7  140   20   35   28   140
1  3  5  8  3  15  24   9  40  15  24  120   45   72  120   360
2  6  4  9  5  24  54  30  36  20  45  216  120  270  180  1080
3  9  5  4  7  45  36  63  20  35  28  180  315  252  140  1260
4  2  5  2  1  10   4   2  10   5   2   20   10    4   10    20
5  4  4  3  0  16  12   0  12   0   0   48    0    0    0     0
2 голосов
/ 21 мая 2019

Использование:

import itertools
L=[(x, y) for x, y in itertools.product(df.columns,df.columns) if x != y]
pd.concat([pd.DataFrame({''.join(i):df.loc[:,i].prod(axis=1)}) for i in L],axis=1)

   AB  AC  AD  BA  BC  BD  CA  CB  CD  DA  DB  DC
0  20  35   5  20  28   4  35  28   7   5   4   7
1  15  24   9  15  40  15  24  40  24   9  15  24
2  24  54  30  24  36  20  54  36  45  30  20  45
3  45  36  63  45  20  35  36  20  28  63  35  28
4  10   4   2  10  10   5   4  10   2   2   5   2
5  16  12   0  16  12   0  12  12   0   0   0   0
1 голос
/ 21 мая 2019

Используйте комбинации и цепочку для умножения столбцов, а затем используйте DataFrame.eval:

comb_list = list(chain.from_iterable([list(combinations(df.columns, i)) for i in range(2, len(df.columns)+1)]))

#method 1
for comb in comb_list:
    df[''.join(comb)] = df.eval('*'.join(comb))
#method 2
df = pd.concat([df]+[pd.DataFrame(df.eval('*'.join(comb)), 
               columns=[''.join(comb)]) for comb in comb_list], 1)


print(df)
   A  B  C  D  AB  AC  AD  BC  BD  CD  ABC  ABD  ACD  BCD  ABCD
0  5  4  7  1  20  35   5  28   4   7  140   20   35   28   140
1  3  5  8  3  15  24   9  40  15  24  120   45   72  120   360
2  6  4  9  5  24  54  30  36  20  45  216  120  270  180  1080
3  9  5  4  7  45  36  63  20  35  28  180  315  252  140  1260
4  2  5  2  1  10   4   2  10   5   2   20   10    4   10    20
5  4  4  3  0  16  12   0  12   0   0   48    0    0    0     0
1 голос
/ 21 мая 2019

Вы можете создать список комбинаций с размером варианта.

import itertools
l=[] # final list
ll = list('ABCD') # list of letters
for L in range(0, len(ll)+1):
    for subset in itertools.combinations(ll, L):
        l.append(''.join(subset))
del(l[0]) # remove the empty string ''               
print(l)

['A', 'B', 'C', 'D', 'AB', 'AC', 'AD', 'BC', 'BD', 'CD', 'ABC', 'ABD', 'ACD', 'BCD', 'ABCD']

Вы используете фрейм данных следующим образом:

df = pd.DataFrame({
         'A':[5,3,6,9,2,4],
         'B':[4,5,4,5,5,4],
         'C':[7,8,9,4,2,3],
         'D':[1,3,5,7,1,0],

})

Тогда вы можете использовать этот код:

l=['A', 'B', 'C', 'D', 'AB', 'AC', 'AD', 'BC', 'BD', 'CD', 'ABC', 'ABD', 'ACD', 'BCD', 'ABCD']

for i in l:
    if(len(i)>1):
        df[i]=1 # set the initial value to 1

for i in l:
    if(len(i)>1):
        plets=list(i)
        for p in plets:
            df[i]*=df[p] #makes the product based on columns name disolver
print(df)        

   A  B  C  D  AB  AC  AD  BC  BD  CD  ABC  ABD  ACD  BCD  ABCD
0  5  4  7  1  20  35   5  28   4   7  140   20   35   28   140
1  3  5  8  3  15  24   9  40  15  24  120   45   72  120   360
2  6  4  9  5  24  54  30  36  20  45  216  120  270  180  1080
3  9  5  4  7  45  36  63  20  35  28  180  315  252  140  1260
4  2  5  2  1  10   4   2  10   5   2   20   10    4   10    20
5  4  4  3  0  16  12   0  12   0   0   48    0    0    0     0
...