Используйте Dask для возврата нескольких фреймов данных после вычислений на одном фрейме данных - PullRequest
0 голосов
/ 28 июня 2019

Могу ли я взять DataFrame (первоначально в Pandas, сэмплировать его с различными случайными семенами и использовать Dask, чтобы вернуть несколько DataFrame (по одному на случайное семя).

Мое очень примитивное понимание Dask состоит в том, что я могу взять Dataframe, разделить его и затем выполнить вычисления над ним, но мне было интересно, смогу ли я использовать Dask для решения этой проблемы.

1 Ответ

0 голосов
/ 30 июня 2019

Конечно, вы можете использовать Dask Delayed для параллельного запуска произвольных функций.

def sample(df: pandas.DataFrame, seed:int) -> pandas.DataFrame:
    ...

import dask

df = pandas.DataFrame(...)

dfs = [dask.delayed(sample)(df, seed) for seed in seeds]
dfs = dask.compute(*dfs)
...