Очистка текста - удаление имен в описании из заданного списка имен - PullRequest
1 голос
/ 16 февраля 2020

У меня есть список полных имен, которые могут содержать более 10К имен

["name surname1", "name surname12"...., "name surname10000"]

Я хочу обработать описание и удалить из него любое из вышеперечисленных имен, имена следует удалять только при обнаружении точного соответствия , Описание может иметь более 1 имени из данного списка.

Один подход, который я могу придумать,

description = """
Jakobe Lamb Lorem ipsum dolor sit amet, Edwin Day consectetuer adipiscing elit. Jakobe Donec quam felis, ultricies nec, pellentesque
"""
name_list = ["Jakobe Lamb", "Edwin Day", "Josue Houston"] # this will have more than 10K names
names_regex = r"|".join(names_list)
cleaned_description =  re.sub(names_regex,'', description)

, но так как регулярное выражение станет очень большим, будет ли оно эффективным? Что может быть наиболее эффективным решением для достижения этой цели?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...