Оптимальный алгоритм добавления тегов разметки в текст - PullRequest
0 голосов
/ 19 мая 2019

У меня есть словарь, который содержит термины, которые я хотел бы идентифицировать в строке.Например, я хотел бы в идеале добавить тег XML вокруг моего термина <highlight>term</highlight>

Пример

dictionary = ['Steve', 'Woz']
input = "I met Steve and Woz]
output = "I met <highlight>Steve</highlight> and <highlight>Woz</highlight>"

Это может быть более сложным, так как мне нужно идентифицировать каждую запись в текстетак что некоторые из основных моментов могут содержаться в другом

Например,

dictionary = ['Steve', 'Steve Jobs', 'Jobs']
input = "I met Steve Jobs]
output = "I met <highlight><highlight>Steve</highlight> <highlight>Jobs</highlight></highlight>"

. Я могу сохранить словарь в трюке Aho-Corasick и эффективно идентифицировать ключевые слова.Моя проблема в том, что я не могу понять, как правильно пометить термины.

Каков оптимальный способ выполнения этой пометки?

...