У меня есть функция, которая применяется к фрейму данных pandas, я рассматриваю возможность использования dask для повышения производительности
Это мой существующий код:
df.reset_index(
level=0,
inplace=True,
)
df = df.sort_index().groupby(
['col1', 'col2', 'col3'],
as_index=False).apply(
myfunction
)
Я пытаюсь преобразовать этос синтаксисом dask и удалось добраться до:
from dask import dataframe as dd
from multiprocessing import cpu_count
nCores = cpu_count()
df = dd.from_pandas(
df,
npartitions=nCores
).reset_index().set_index().groupby(
['col1', 'col2', 'col3']
).apply(
myfunction
).compute()
Похоже, вы можете передать только столбец к set_index
, и в dask нет эквивалента sort_index()
.Как я могу написать этот код панды в синтаксисе dask?