У меня есть программа, которая выполняет обработку текста в документе, отформатированном в формате html, на основе информации об этом же документе без информации html. По сути, я нахожу слово или фразу в неформатированном документе, затем нахожу соответствующее слово в отформатированном документе и изменяю внешний вид слова или фразы, используя HTML-теги, чтобы они выделялись (например, выделение жирным шрифтом или изменение его цвета).
Вот моя проблема. Иногда я хочу сделать форматирование для слова или фразы, которые могут быть частью HTML-тега (например, возможно, я хочу сделать некоторое форматирование для слова «шрифт», но только если это слово не находится внутри HTML-тега) , Есть ли простой способ определить, является ли строка частью HTML-тега в блоке текста или нет?
Кстати, я не могу просто удалить теги html в документе и выполнить обработку оставшегося текста, потому что мне нужно сохранить html в результате. Мне нужно добавить к существующему HTML, но мне нужно надежно различать строки, которые являются частью тегов, и строки, которые не являются.
Есть идеи?
Спасибо,
Эллиот