Использование XPath Содержит против HTML в Java - PullRequest
21 голосов
/ 26 января 2012

Я собираю значения со страниц HTML, используя XPath внутри java-программы, чтобы добраться до определенного тега, и иногда использую регулярные выражения для очистки данных, которые я получаю.

После некоторых исследований я остановился на HTML Cleaner (http://htmlcleaner.sourceforge.net/) как на самом надежном способе анализа необработанного HTML в хорошем формате XML. HTML Cleaner, однако, поддерживает только XPath 1.0, и я чувствую, что нуждаюсь в таких функциях, как «contains». например, в этом фрагменте XML:

<div>
  <td id='1234 foo 5678'>Hello</td>
</div>

Я бы хотел получить текст «Hello» со следующим XPath:

//div/td[contains(@id, 'foo')]/text()

Есть ли способ получить эту функциональность? У меня есть несколько идей, но я бы предпочел не изобретать велосипед, если мне не нужно:

  • Если есть способ вызвать метод оценки HTML Cleaner и использовать тег TagNode (который я не нашел), я могу использовать сериализатор XML на возвращенном теге TagNode и соединить вместе XPath для достижения желаемой функциональности.
  • Я мог бы использовать HTML Cleaner для очистки в XML, сериализовать его обратно в строку и использовать его с другой библиотекой XPath, но я не могу найти хорошего оценщика Java XPath, который работает со строкой.
  • Используя функции TagNode, такие как getElementsByAttValue, я мог бы по существу воссоздать оценку XPath и вставить в нее функцию с использованием String.contains

Короткий вопрос: есть ли способ использовать XPath, содержащийся в HTML внутри существующей библиотеки Java?

1 Ответ

34 голосов
/ 26 января 2012

Относительно этого:

Я мог бы использовать HTML Cleaner для очистки в XML и сериализации обратно в и используйте его с другой библиотекой XPath, но я не могу найти хороший Java XPath оценщик, который работает на строке.

Это точно , что я бы сделал (за исключением того, что вам не нужно оперировать со строкой (см. Ниже)).

Многие HTML-парсеры пытаются сделать слишком много . Например, HTMLCleaner неправильно / полностью не реализует спецификацию XPath 1.0 (contains (например) - это функция XPath 1.0 ). Хорошей новостью является то, что вам это не нужно. Все, что вам нужно от HTMLCleaner - это проанализировать искаженный ввод. Как только вы это сделаете, лучше использовать стандартные XML-интерфейсы , чтобы иметь дело с получающимся (теперь правильно сформированным) документом.

Сначала преобразуйте документ в стандартный org.w3c.dom.Document, например так:

TagNode tagNode = new HtmlCleaner().clean(
        "<div><table><td id='1234 foo 5678'>Hello</td>");
org.w3c.dom.Document doc = new DomSerializer(
        new CleanerProperties()).createDOM(tagNode);

А затем используйте стандартные интерфейсы JAXP для запроса:

XPath xpath = XPathFactory.newInstance().newXPath();
String str = (String) xpath.evaluate("//div//td[contains(@id, 'foo')]/text()", 
                       doc, XPathConstants.STRING);
System.out.println(str);

Выход:

Hello
...