У меня есть датафрейм 500 000 строк и 3 столбца. Я хотел бы вычислить результат трех функций для каждого фрагмента из 5000 строк в кадре данных (то есть 100 фрагментов). Две из трех функций используются как определенные, а третья - это среднее значение в столбце 3.
В данный момент я сначала извлекаю фрагмент, а затем вычисляю результаты функций для этого кусок. Для среднего значения столбца 3 я использую df.iloc[:,2].compute().mean()
, но другие функции выполняются за пределами dask.
Есть ли способ использовать многопоточность dask, принимая весь фрейм данных и размер фрагмента в качестве входных данных, и он выполняет те же функции, но автоматически? Это похоже на более подходящий способ использования Dask.
Кроме того, мне кажется, что это вопрос базового c dask, поэтому, если это дубликат, просто укажите мне на нужное место (я я новичок в даске, и я, возможно, еще не искал нужную вещь).