Я ищу документацию (официально документацию, если это возможно) для библиотек TagSoup и jTidy.
Я хочу использовать эти библиотеки для манипулирования html-файлами «tagoup», которые включают в себя теги xml с различными пространствами имен, смешанными между тегами html (html, xhtml или html5).
Я тестировал HTMLCleaner, NekoHTML и Jericho, но я не нахожу документацию для jTidy и TagSoup, кроме простейших примеров для очистки файла.
Мне нужна документация о манипулировании содержимым, замене тегов, извлечении информации и т. Д. *
Спасибо
Примечание:
После проверки всех вариантов я использовал StAX / Woodstox :