Я использовал Cobra до сих пор из-за того, как легко это было, но, к сожалению, у него были некоторые проблемы с несколькими тестами. Кто-нибудь предлагает проверенную и проверенную библиотеку?
Я безуспешно пробовал встроенную Cobra и HTMLCleaner.
TagSoup действительно отлично подходит для работы с дерьмовым HTML / XHTML.
Иерихон (и NekoHTML ) также хороши для анализа недопустимого HTML.
TagSoup и Jericho: проверено и опробовано. NekoHTML: обратная связь от надежного источника.
Я предлагаю Парсер Validator.nu , основанный на алгоритме парсинга HTML5. (В настоящее время Mozilla заменяет свой собственный анализатор HTML).
[Отвечая на заголовок - общий вопрос и комментарии не состоят]
JTidy (http://jtidy.sourceforge.net/) - это порт HTMLTidy Дейва Раггетта. Это очень полезно, хотя я думаю, что разработка могла замедлиться / прекратиться.
Mozilla HTML Parser выглядит довольно интересно. По определению, он должен быть таким же хорошим, как и сам движок Gecko, который, вероятно, удовлетворит ваши потребности.
Взгляните на Saxon (нет, я не связан с продуктом, просто довольный пользователь).