Проблемы с Xalan с использованием XPATH (незакрытые теги) - PullRequest
1 голос
/ 11 апреля 2011

Привет,

Я столкнулся с проблемой следующего стека: JWebUnit -> HtmlUnit -> Xalan.Я пытаюсь найти элемент по XPATH, но HTML-документ довольно искажен.

Xalan прекращает поиск элементов, когда я достигаю элемента /body в XPATH.Я полагаю, это потому, что документ содержит два тега <body> и один закрытый.

Все работает для /html/head или /html.Но когда я пытаюсь /html/body (или /html/body[1], //body[1], или что-нибудь внутри этих тегов), я получаю только нулевое значение от Xalan.

Есть ли способ обойти это?Я просто не могу изменить HTML-документ сам по себе.Благодарю за внимание.

С уважением, Тьяго

1 Ответ

1 голос
/ 11 апреля 2011

HtmlUnit должен использовать что-то для преобразования HTML в XML.Возможно, вы можете сказать ему использовать jsoup или tagsoup, которые очень терпимы к грязному HTML?

Вы могли бы также написать код, чтобы просто вывести дерево XML в файл, чтобы вы могли видеть, что в нем есть.

...