У меня есть 1000 шаблонов регулярных выражений, которые я должен искать в каждой из 9000 строк. Обычный метод грубой силы с использованием списка панд занял 25 минут для той же задачи. Я использовал отложенную функцию dask для распараллеливания всей функции. Это заняло 9 минут. Мне нужно больше ускорения. Как я могу использовать dask массивы или dask dataframe для выполнения задачи?
Или есть какой-нибудь более быстрый способ сделать это?
def match(string):
for regex in regex_list:
if re.search(regex, string):
pass
[match(x) for x in string_list]