Question

Я пытаюсь использовать Dask Dataframe для объединения большого набора данных.

Мой dd.df выглядит так:

seq                                       kegg       evalue
AAAAAAAAPAADAKK                           K02897     0.001
AAAAAAAAPAADAKK                           K02897     0.007
AAAAAAAAPAPAPVAEEGEPIEHLPEITFDDFSKVELRVAR K01874     0.1

Я пытаюсь использовать groupby для:

считать количество раз, когда один и тот же "кегг" подключен к каждому "seq"
Найти произведение "evalue" для каждого "kegg", связанного с каждым "seq"

Я пытался использовать groupby().agg(), используя следующее:

df.groupby(['seq','kegg']).agg({'kegg':['count'], 
'evalue':['prod']}, split_out=10)

Однако я получаю следующую ошибку:

ValueError: unknown aggregate prod

Просматривая документацию, похоже, что есть агрегат продуктов, но очевидно, что это не работает.

Я новичок и в пандах, и в дасках, так что я уверен, что это простое исправление, которое я просто не получаю.

MRocklin · Answer 1 · 18 мая 2019

Как обсуждалось в комментариях выше, это было решено путем установки более новой версии Dask

Существует ли агрегат "продукт" для Dask Dataframe?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Существует ли агрегат "продукт" для Dask Dataframe?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы