Я использую NekoHtml. Он не смог разобрать html с таких сайтов, как mercurynews.com, в DOM. Любое решение проблемы?
Рассматривали ли вы суп с метками?
http://home.ccil.org/~cowan/XML/tagsoup/
Помимо переключения на другие парсеры ? Если на сайте есть постоянные шаблоны ошибок, вы можете оперативно исправить их с помощью ряда регулярных выражений, прежде чем перейти к анализатору.
Я пробовал jsoup - http://jsoup.org -.
Это библиотека Java с открытым исходным кодом для реального анализа HTML-кода и манипулирования DOM с jquery-подобными методами.
Я не знаю, что означает «подобные сайты», но MercuryNews.com и большинство новостных сайтов имеют RSS-интерфейс .
Используйте JTidy , чтобы привести его в порядок перед анализом, или, что еще лучше, использовать его в качестве парсера
Я использовал рендерер Cobra из «Проекта Lobo» (http://lobobrowser.org/cobra.jsp) для анализа не совсем удобного HTML, и он хорошо работал. Его API также очень прост в использовании.
Надеюсь, это поможет.
Вы можете рассмотреть возможность использования HTML-парсера Swing.
http://www.rkcole.com/articles/swing/HTMLParser.html