Мне нужно обработать некоторые недопустимые файлы HTML, добавить атрибуты к некоторым тегам, и мне нужны начальная и конечная позиции тегов.Поэтому использование синтаксического анализатора xml - это не вариант, потому что информация о местоположении теряется.
Есть ли возможность запретить jsoup восстанавливать "сломанный" HTML и не добавлять дополнительные теги?
Пример:
<b><p><font>Some Text</b>Text</font></p>
Вывод из JSOUP:
<b></b><p><b><font added=attribute>Some Text</font></b><font>Text</font></p>
Но я хочу:
<b><p><font added=attribute>Some Text</b>Text</font></p>