Существует ли агрегат "продукт" для Dask Dataframe? - PullRequest
0 голосов
/ 02 мая 2019

Я пытаюсь использовать Dask Dataframe для объединения большого набора данных.

Мой dd.df выглядит так:

seq                                       kegg       evalue
AAAAAAAAPAADAKK                           K02897     0.001
AAAAAAAAPAADAKK                           K02897     0.007
AAAAAAAAPAPAPVAEEGEPIEHLPEITFDDFSKVELRVAR K01874     0.1

Я пытаюсь использовать groupby для:

  1. считать количество раз, когда один и тот же "кегг" подключен к каждому "seq"
  2. Найти произведение "evalue" для каждого "kegg", связанного с каждым "seq"

Я пытался использовать groupby().agg(), используя следующее:

df.groupby(['seq','kegg']).agg({'kegg':['count'], 
'evalue':['prod']}, split_out=10)

Однако я получаю следующую ошибку:

ValueError: unknown aggregate prod

Просматривая документацию, похоже, что есть агрегат продуктов, но очевидно, что это не работает.

Я новичок и в пандах, и в дасках, так что я уверен, что это простое исправление, которое я просто не получаю.

1 Ответ

0 голосов
/ 18 мая 2019

Как обсуждалось в комментариях выше, это было решено путем установки более новой версии Dask

...