Я предлагаю создать новое с map
, np.repeat
и chain.from_iterable
:
d = {'a': ['x', 'y', 'z'], 'b': ['x', 'w', 'r'], 'c': ['x', 'q']}
s = df['B'].map(d)
lens = [len(x) for x in s]
from itertools import chain
df = pd.DataFrame({
'A' : df['A'].values.repeat(lens),
'C' : list(chain.from_iterable(s.values.tolist()))
})
print (df)
A C
0 1 x
1 1 y
2 1 z
3 2 x
4 2 w
5 2 r
6 3 x
7 3 q
8 4 x
9 4 w
10 4 r
Более общее решение работает, если какое-то значение словаря не совпадает:
Возвращение первого решенияошибка, потому что map
возвращает отсутствующее значение:
TypeError: объект типа 'NoneType' не имеет len ()
print (df)
A B
0 1 d <- change data
1 2 b
2 3 c
3 4 b
d = {'a': ['x', 'y', 'z'], 'b': ['x', 'w', 'r'], 'c': ['x', 'q']}
s = [d.get(x, [x]) for x in df['B']]
print (s)
[['d'], ['x', 'w', 'r'], ['x', 'q'], ['x', 'w', 'r']]
lens = [len(x) for x in s]
from itertools import chain
df = pd.DataFrame({
'A' : df['A'].values.repeat(lens),
'B' : list(chain.from_iterable(s))
})
print (df)
A B
0 1 d
1 2 x
2 2 w
3 2 r
4 3 x
5 3 q
6 4 x
7 4 w
8 4 r
Поскольку используется dask
,другое решение должно быть:
d = {'a': ['x', 'y', 'z'], 'b': ['x', 'w', 'r'], 'c': ['x', 'q']}
df1 = pd.DataFrame([(k, y) for k, v in d.items() for y in v], columns=['B','C'])
print (df1)
B C
0 a x
1 a y
2 a z
3 b x
4 b w
5 b r
6 c x
7 c q
df = df.merge(df1, on='B', how='left')
print (df)
A B C
0 1 a x
1 1 a y
2 1 a z
3 2 b x
4 2 b w
5 2 b r
6 3 c x
7 3 c q
8 4 b x
9 4 b w
10 4 b r