Пользовательский поиск в Dask - PullRequest
0 голосов
/ 03 июля 2018

У меня есть 1000 шаблонов регулярных выражений, которые я должен искать в каждой из 9000 строк. Обычный метод грубой силы с использованием списка панд занял 25 минут для той же задачи. Я использовал отложенную функцию dask для распараллеливания всей функции. Это заняло 9 минут. Мне нужно больше ускорения. Как я могу использовать dask массивы или dask dataframe для выполнения задачи? Или есть какой-нибудь более быстрый способ сделать это?

def match(string):
    for regex in regex_list:
        if re.search(regex, string):
           pass
[match(x) for x in string_list]
...