Я пытаюсь использовать Dask Dataframe для объединения большого набора данных.
Мой dd.df выглядит так:
seq kegg evalue
AAAAAAAAPAADAKK K02897 0.001
AAAAAAAAPAADAKK K02897 0.007
AAAAAAAAPAPAPVAEEGEPIEHLPEITFDDFSKVELRVAR K01874 0.1
Я пытаюсь использовать groupby для:
- считать количество раз, когда один и тот же "кегг" подключен к каждому "seq"
- Найти произведение "evalue" для каждого "kegg", связанного с каждым "seq"
Я пытался использовать groupby().agg()
, используя следующее:
df.groupby(['seq','kegg']).agg({'kegg':['count'],
'evalue':['prod']}, split_out=10)
Однако я получаю следующую ошибку:
ValueError: unknown aggregate prod
Просматривая документацию, похоже, что есть агрегат продуктов, но очевидно, что это не работает.
Я новичок и в пандах, и в дасках, так что я уверен, что это простое исправление, которое я просто не получаю.