Веб-сбор не смог преобразовать искаженный HTML в XML - PullRequest
1 голос
/ 18 декабря 2011

Я использую процессор xquery в веб-сборке (из java) для анализа html-страницы, содержащей недопустимый тег внутри элемента <div>, например <div 3px="abc">. Исключение составляет:

SXXP0003: Error reported by XML parser: Element type "div" must be followed by either
attribute specifications, ">" or "/>".

at org.webharvest.runtime.processors.XQueryProcessor.execute(Unknown Source)

Существует ли быстрый способ очистки предварительной обработки div? Или какое-нибудь решение этой проблемы?

...