Question

У меня есть список полных имен, которые могут содержать более 10К имен

["name surname1", "name surname12"...., "name surname10000"]

Я хочу обработать описание и удалить из него любое из вышеперечисленных имен, имена следует удалять только при обнаружении точного соответствия , Описание может иметь более 1 имени из данного списка.

Один подход, который я могу придумать,

description = """
Jakobe Lamb Lorem ipsum dolor sit amet, Edwin Day consectetuer adipiscing elit. Jakobe Donec quam felis, ultricies nec, pellentesque
"""
name_list = ["Jakobe Lamb", "Edwin Day", "Josue Houston"] # this will have more than 10K names
names_regex = r"|".join(names_list)
cleaned_description =  re.sub(names_regex,'', description)

, но так как регулярное выражение станет очень большим, будет ли оно эффективным? Что может быть наиболее эффективным решением для достижения этой цели?

Очистка текста - удаление имен в описании из заданного списка имен

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Очистка текста - удаление имен в описании из заданного списка имен

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов