Попробуйте NekoHtml .Это библиотека синтаксического анализа HTML, используемая различными высокоуровневыми средами тестирования, такими как HtmlUnit.
NekoHTML - это простой сканер HTML и балансировщик тегов, который позволяет программистам приложений анализировать документы HTML и получать доступ к информации с использованием стандартныхXML интерфейсы.Анализатор может сканировать HTML-файлы и «исправлять» многие распространенные ошибки, которые совершают авторы (и компьютеры) при написании HTML-документов.NekoHTML добавляет отсутствующие родительские элементы;автоматически закрывает элементы с необязательными конечными тегами;и может обрабатывать несовпадающие теги встроенных элементов.