Вы пытались разделить один большой массив данных по количеству потоков на небольшие кадры данных, применить карту регулярных выражений параллельно и соединить каждый маленький df вместе?
Мне удалось сделать что-то похожее с кадром данных об экспрессии генов. Я бы запустил его в небольшом масштабе и контролировал бы, если бы вы получили ожидаемый результат.
К сожалению, у меня недостаточно репутации, чтобы комментировать
def parallelize_dataframe(df, func):
df_split = np.array_split(df, num_partitions)
pool = Pool(num_cores)
for x in df_split:
print(x.shape)
df = pd.concat(pool.map(func, df_split))
pool.close()
pool.join()
return df
Это общая функция, которую я использовал