Может ли кто-нибудь порекомендовать мне библиотеку Java, чтобы разрешить запросы XPath через URL-адреса? Я пробовал JAXP без успеха.
Спасибо.
Существует несколько различных подходов к этому, документированных в Интернете:
Использование HtmlCleaner
Использование Иерихона
Я пробовал несколько различных вариантов этих подходов, например, HtmlParserплюс синтаксический анализатор Java DOM и JSoup плюс Jaxen, но лучше всего работает комбинация HtmlCleaner плюс синтаксический анализатор Java DOM.Следующей лучшей комбинацией был Иерихон плюс Джаксен.
jsoup, Java HTML Parser Очень похоже на синтаксис jQuery.
Вы можете использовать TagSoup вместе с Saxon.Таким образом, вы просто заменяете любой синтаксический анализатор XML SAX, используемый с TagSoup, и реализация XPath 2.0, XSLT 2.0 или XQuery 1.0 работает как обычно.
Я использовал JTidy для превращения HTML в правильный DOM, затем использовал обычный XPath для запроса DOM.
Если вы хотите выполнять кросс-документ / кросс-URL-запросы, лучше используйте JTidy с XQuery.