Как HtmlCleaner обрабатывает фреймы на веб-странице - PullRequest
1 голос
/ 04 августа 2011

Я хочу понять, как HtmlCleaner обрабатывает фреймы Iframes при очистке необработанного html для получения правильного вывода xml.Один пример страницы с iframes - эта страница продукта ebay .

Когда я печатаю вывод HtmlCleaner для этой страницы, я обнаруживаю, что некоторые теги iframe не повреждены, а другие отсутствуют.Одним из пропущенных iframe является iframe с id = "d".Он содержит описание продукта, и его тело было объединено с главной страницей.

Вывод XML html cleaner: http://pastebin.com/03f9gtdC

Может ли кто-нибудь любезно взглянуть на него или предложить какой-нибудь лучший HTMLбиблиотека синтаксического анализа, которая способна изящно обрабатывать фреймы.Эта библиотека должна поддерживать оценку XPath.

...