не хорошо сформированный синтаксический анализ java - PullRequest
0 голосов
/ 13 марта 2012

Я реализую функцию поиска RSS из поисковой системы, используя Java и SAX. Однако некоторые результаты поиска не являются правильно сформированными, то есть тело тега <title> некоторых записей содержит символ & вместо &amp; и т. Д. (Например, что-то вроде, скажем, Starsky & Hutch).

При разборе RSS я получаю org.apache.harmony.xml.ExpatParser&ParseException, в результате чего весь поиск прерывается и ничего не возвращается.

Я хочу, чтобы мой анализатор работал с этими ошибками, как это делает программа чтения RSS в Firefox. Каковы возможности, чтобы решить эту проблему и разобрать ленту RSS?

1 Ответ

1 голос
/ 13 марта 2012

SAX-реализации, как правило, предназначены для обнаружения ошибок и выдачи исключений, и не существует стандартного способа обойти это. Наиболее разумная вещь, о которой я могу подумать, - это попытаться исправить ошибки, такие как случайные символы и символы, перед передачей в SAX.

...