У меня есть список полных имен, которые могут содержать более 10К имен
["name surname1", "name surname12"...., "name surname10000"]
Я хочу обработать описание и удалить из него любое из вышеперечисленных имен, имена следует удалять только при обнаружении точного соответствия , Описание может иметь более 1 имени из данного списка.
Один подход, который я могу придумать,
description = """
Jakobe Lamb Lorem ipsum dolor sit amet, Edwin Day consectetuer adipiscing elit. Jakobe Donec quam felis, ultricies nec, pellentesque
"""
name_list = ["Jakobe Lamb", "Edwin Day", "Josue Houston"] # this will have more than 10K names
names_regex = r"|".join(names_list)
cleaned_description = re.sub(names_regex,'', description)
, но так как регулярное выражение станет очень большим, будет ли оно эффективным? Что может быть наиболее эффективным решением для достижения этой цели?