Библиотека для запроса HTML с XPath в Java? - PullRequest
3 голосов
/ 29 июля 2010

Может ли кто-нибудь порекомендовать мне библиотеку Java, чтобы разрешить запросы XPath через URL-адреса? Я пробовал JAXP без успеха.

Спасибо.

Ответы [ 4 ]

8 голосов
/ 07 января 2013

Существует несколько различных подходов к этому, документированных в Интернете:

Использование HtmlCleaner

Использование Иерихона

Я пробовал несколько различных вариантов этих подходов, например, HtmlParserплюс синтаксический анализатор Java DOM и JSoup плюс Jaxen, но лучше всего работает комбинация HtmlCleaner плюс синтаксический анализатор Java DOM.Следующей лучшей комбинацией был Иерихон плюс Джаксен.

6 голосов
/ 29 июля 2010

jsoup, Java HTML Parser Очень похоже на синтаксис jQuery.

1 голос
/ 29 июля 2010

Вы можете использовать TagSoup вместе с Saxon.Таким образом, вы просто заменяете любой синтаксический анализатор XML SAX, используемый с TagSoup, и реализация XPath 2.0, XSLT 2.0 или XQuery 1.0 работает как обычно.

0 голосов
/ 29 июля 2010

Я использовал JTidy для превращения HTML в правильный DOM, затем использовал обычный XPath для запроса DOM.

Если вы хотите выполнять кросс-документ / кросс-URL-запросы, лучше используйте JTidy с XQuery.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...