Как определить новую сущность для синтаксического анализатора HtmlUnit XML? - PullRequest
0 голосов
/ 28 июня 2010

У меня возникла проблема с синтаксическим анализатором HtmlUnit, когда я пытаюсь получить некоторый XML с веб-сайта (используя API веб-сайта), выполнить быстрый анализ полученного XML-файла и затем сохранить XML-файл в файл (всев рамках прав API).( пример содержимого )

К сожалению, веб-сайт возвращает сущность ¿ на некоторых из запрошенных страниц, и хотя это действительная сущность HTML, HtmlUnit выдает исключение во время анализа сообщения:

Ссылка на сущность "iquest" была указана, но не объявлена.

Как определить iquest как действительную сущность?

1 Ответ

1 голос
/ 28 июня 2010

Вы не можете определить & iquest; кроме как путем редактирования полученных данных (данные не в формате XML, так как любой валидатор покажет, например, первый, который я нашел в Google

Сайт не обслуживает действительный XML, поэтому лучше всего попросить его исправить XML.

Если это не сработает, тогда ищите и заменяйте на & iquest; или добавьте DOCTYPE, который определяет сущность и запрос.

...