Question

Я использую NekoHtml. Он не смог разобрать html с таких сайтов, как mercurynews.com, в DOM. Любое решение проблемы?

Janie · Answer 1 · 14 июля 2009

Рассматривали ли вы суп с метками?

http://home.ccil.org/~cowan/XML/tagsoup/

akarnokd · Answer 2 · 14 июля 2009

Помимо переключения на другие парсеры ? Если на сайте есть постоянные шаблоны ошибок, вы можете оперативно исправить их с помощью ряда регулярных выражений, прежде чем перейти к анализатору.

Luc125 · Answer 3 · 12 сентября 2011

Я пробовал jsoup - http://jsoup.org -.

Это библиотека Java с открытым исходным кодом для реального анализа HTML-кода и манипулирования DOM с jquery-подобными методами.

ykaganovich · Answer 4 · 15 июля 2009

Я не знаю, что означает «подобные сайты», но MercuryNews.com и большинство новостных сайтов имеют RSS-интерфейс .

ykaganovich · Answer 5 · 15 июля 2009

Используйте JTidy , чтобы привести его в порядок перед анализом, или, что еще лучше, использовать его в качестве парсера

cjstehno · Answer 6 · 15 июля 2009

Я использовал рендерер Cobra из «Проекта Lobo» (http://lobobrowser.org/cobra.jsp) для анализа не совсем удобного HTML, и он хорошо работал. Его API также очень прост в использовании.

Надеюсь, это поможет.

Thorbjørn Ravn Andersen · Answer 7 · 14 июля 2009

Вы можете рассмотреть возможность использования HTML-парсера Swing.

http://www.rkcole.com/articles/swing/HTMLParser.html

Как обрабатывать / анализировать плохо сформированный HTML в DOM в Java?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как обрабатывать / анализировать плохо сформированный HTML в DOM в Java?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов