Так что регулярные выражения могут иметь побочные эффекты . Каков же предпочтительный метод получения начальных и конечных позиций символов всех тегов HTML в документе? Библиотеки синтаксического анализа, такие как Jsoup и NekoHTML, по-видимому, не предоставляют эту информацию, даже XMLLocator , похоже, не применяется, поскольку предоставляет только end текущего события документа. 1007 *
Меня не интересует тип или имя тега, любые его атрибуты или удаление чего-либо из текста. Я просто хочу знать, где они начинаются и где они заканчиваются.
Для целей этого вопроса можно предположить, что исходный HTML верен.