Я хочу спросить, хорошо ли вызывать пользовательские функции из функции apply. Например:
from dask import dataframe as dd
def f1(a):
return a+2
def f2(row):
x = f1(row['col1'])
row['col2'] = x
df1 = dd.read_parquet("abc.parquet")
df2 = df.apply(f2)
df2.to_parquet("xyz.parquet")
Итак, у меня есть следующие вопросы:
1. Будет ли функция f1 выполняться параллельно? ИЛИ мне нужно пометить его как @ delayed.
2.df.apply (f2), f2 здесь будет действовать аналогично UDF в Spark. или мне нужно каждый раз указывать параметр npartition , чтобы он выполнялся параллельно.
4. При записи на диск мне все равно нужно вызывать compute ?
5.Это вычисление похоже на collect () spark?
Заранее спасибо ..