Question

У меня есть 1000 шаблонов регулярных выражений, которые я должен искать в каждой из 9000 строк. Обычный метод грубой силы с использованием списка панд занял 25 минут для той же задачи. Я использовал отложенную функцию dask для распараллеливания всей функции. Это заняло 9 минут. Мне нужно больше ускорения. Как я могу использовать dask массивы или dask dataframe для выполнения задачи? Или есть какой-нибудь более быстрый способ сделать это?

def match(string):
    for regex in regex_list:
        if re.search(regex, string):
           pass
[match(x) for x in string_list]

Пользовательский поиск в Dask

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Пользовательский поиск в Dask

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы