Я использую Dask DataFrame для распараллеливания моего следующего кода поиска регулярного выражения.
ddf = dd.from_pandas(in_desc, npartitions=16)
def r_s(dataframe1):
for vals in dataframe1:
for regex in dataframe.values:
if(re.search(regex[0], vals)):
pass
res = ddf.map_partitions(r_s, meta=ddf)
res.compute()
in_desc и dataframe1 - это два кадра данных панд.
При проверке использования ядра с помощью mpstat -P ALL 1
я заметил, что из 16 ядер ЦП ни одно ядро не использовало более 20%. Тем не менее, сумма использования всех ядер составила около 100 процентов.
Возможно ли использование всех ядер более чем на 50 процентов, возможно с помощью dask? Если да, то как мне это сделать или изменить мой код для достижения цели?
Спасибо.