Как лучше всего распределить задачу по набору данных, использующему относительно дорогой для создания ресурс или объект для вычислений.
# in pandas
df = pd.read_csv(...)
foo = Foo() # expensive initialization.
result = df.apply(lambda x: foo.do(x))
# in dask?
# is it possible to scatter the foo to the workers?
client.scatter(...
Я планирую использовать это с dask_jobqueue с SGECluster.