У меня есть фрейм данных pandas, в котором я хочу выполнить поиск в регулярном выражении:
df[df['material'].str.contains(r'\baluminum\b', regex=True)]
Я предполагал, что это можно распараллелить с Dask, но это не приведет к улучшению производительности:
import dask.dataframe as dd
ddf = dd.from_pandas(df, npartitions=8)
dask.config.set(scheduler=dask.multiprocessing.get)
# Pandas DF
%timeit df[df['material'].str.contains(r'\baluminum\b', regex=True)]
23.7 s ± 571 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
# Dask DF
%timeit ddf[ddf['material'].str.contains(r'\baluminum\b',regex=True)].compute()
25.6 s ± 1.25 s per loop (mean ± std. dev. of 7 runs, 1 loop each)
Почемув том, что? Разве эта операция не распараллеливается?