Как обрабатывать / анализировать плохо сформированный HTML в DOM в Java? - PullRequest
0 голосов
/ 14 июля 2009

Я использую NekoHtml. Он не смог разобрать html с таких сайтов, как mercurynews.com, в DOM. Любое решение проблемы?

Ответы [ 7 ]

5 голосов
/ 14 июля 2009

Рассматривали ли вы суп с метками?

http://home.ccil.org/~cowan/XML/tagsoup/

3 голосов
/ 14 июля 2009

Помимо переключения на другие парсеры ? Если на сайте есть постоянные шаблоны ошибок, вы можете оперативно исправить их с помощью ряда регулярных выражений, прежде чем перейти к анализатору.

0 голосов
/ 12 сентября 2011

Я пробовал jsoup - http://jsoup.org -.

Это библиотека Java с открытым исходным кодом для реального анализа HTML-кода и манипулирования DOM с jquery-подобными методами.

0 голосов
/ 15 июля 2009

Я не знаю, что означает «подобные сайты», но MercuryNews.com и большинство новостных сайтов имеют RSS-интерфейс .

0 голосов
/ 15 июля 2009

Используйте JTidy , чтобы привести его в порядок перед анализом, или, что еще лучше, использовать его в качестве парсера

0 голосов
/ 15 июля 2009

Я использовал рендерер Cobra из «Проекта Lobo» (http://lobobrowser.org/cobra.jsp) для анализа не совсем удобного HTML, и он хорошо работал. Его API также очень прост в использовании.

Надеюсь, это поможет.

0 голосов
/ 14 июля 2009

Вы можете рассмотреть возможность использования HTML-парсера Swing.

http://www.rkcole.com/articles/swing/HTMLParser.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...