У меня есть словарь, который содержит термины, которые я хотел бы идентифицировать в строке.Например, я хотел бы в идеале добавить тег XML вокруг моего термина <highlight>term</highlight>
Пример
dictionary = ['Steve', 'Woz']
input = "I met Steve and Woz]
output = "I met <highlight>Steve</highlight> and <highlight>Woz</highlight>"
Это может быть более сложным, так как мне нужно идентифицировать каждую запись в текстетак что некоторые из основных моментов могут содержаться в другом
Например,
dictionary = ['Steve', 'Steve Jobs', 'Jobs']
input = "I met Steve Jobs]
output = "I met <highlight><highlight>Steve</highlight> <highlight>Jobs</highlight></highlight>"
. Я могу сохранить словарь в трюке Aho-Corasick и эффективно идентифицировать ключевые слова.Моя проблема в том, что я не могу понять, как правильно пометить термины.
Каков оптимальный способ выполнения этой пометки?