Дано:
- Текст (необязательно с тегами HTML)
- таблица базы данных с аббревиатурами и сокращениями (например, "etc.", "s.o.", ...)
Голы:
- Создание анализатора, который находит все вхождения в данном тексте
- Создайте небольшой графический интерфейс, чтобы пользователь мог выбрать, совпадает ли найденное вхождение (это будет изменено по требованию)
- Пользователь имеет возможность игнорировать совпадение (также должен быть помечен как «игнорируемый»)
- Заменить любое принятое вхождение специальной конструкцией XML
Моя главная проблема - парсер, я упомянул графический интерфейс только для того, чтобы дать полный обзор.
Задача состоит в том, чтобы создать синтаксический анализатор, который анализирует текст для e.x. акроним и отметьте его для последующей постобработки. Любая «метка» должна быть в форме тегов XML, так как окружающая среда не принимает ничего другого (мы находимся в DOM Editor CMS, который заканчивается на «Spirit»;)).
У кого-нибудь есть подсказка для библиотеки, или кто-нибудь создал что-то подобное? Как вы или вы бы справились с такими вещами, как:
- Два или более слова - это одно целое
- fullstop - часть предложения или часть искомого токена
- итеративная замена - пользователь принимает первое вхождение - мгновенная замена или буферизация?
Любая идея, подсказка библиотеки, статья в Википедии, что угодно - полезно. Я не нашел ни одного связанного вопроса, который отвечал бы на все аспекты, упомянутые выше.