Dask: вызов пользовательских функций изнутри применить функцию - PullRequest
0 голосов
/ 18 января 2020

Я хочу спросить, хорошо ли вызывать пользовательские функции из функции apply. Например:

from dask import dataframe as dd

def f1(a):
    return a+2

def f2(row):
    x = f1(row['col1'])
    row['col2'] = x

df1 = dd.read_parquet("abc.parquet")
df2 = df.apply(f2)
df2.to_parquet("xyz.parquet")

Итак, у меня есть следующие вопросы:

1. Будет ли функция f1 выполняться параллельно? ИЛИ мне нужно пометить его как @ delayed.

2.df.apply (f2), f2 здесь будет действовать аналогично UDF в Spark. или мне нужно каждый раз указывать параметр npartition , чтобы он выполнялся параллельно.

4. При записи на диск мне все равно нужно вызывать compute ?

5.Это вычисление похоже на collect () spark?


Заранее спасибо ..

...