как пропустить проверку правильности XML - PullRequest
2 голосов
/ 10 февраля 2009

Я использую Xpath (и Java) для извлечения информации с некоторых веб-сайтов. Однако моя проблема заключается в том, что, поскольку некоторые из этих веб-сайтов не являются правильно сформированными, я не могу их обработать. Есть ли способ избежать проверки правильности или альтернативно указать теги, которые не следует проверять на правильность?

Спасибо Rp

Ответы [ 4 ]

5 голосов
/ 10 февраля 2009

препроцесс с Tidy .

3 голосов
/ 10 февраля 2009

Проверьте http://nekohtml.sourceforge.net/ для превращения HTML в объект DOM

2 голосов
/ 10 февраля 2009

TagSoup - SAX-совместимый синтаксический анализатор, написанный на Java, который может обрабатывать все виды поврежденного HTML. Попробуйте использовать TagSoup в качестве анализатора XML, а затем обработать вывод через Xpath.

1 голос
/ 10 февраля 2009

Возможно, вы не хотите использовать синтаксический анализатор XML для анализа HTML. Вам лучше использовать такую ​​библиотеку, как HtmlUnit или HtmlParser .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...