Меняется ли структура страницы при
htmlcleaner очищает его?
Согласно введенному примеру на http://htmlcleaner.sourceforge.net/, HTMLCleaner определенно может изменить структуру страницы при очистке. В этом примере он добавляет элементы html и body и удаляет элемент h1 из таблицы.
Почему бы вам не запустить HTMLCleaner на странице и не посмотреть на вывод с нее? Тогда вы сможете определить, изменилась ли и как изменилась структура.
Есть ли способ избежать этого или в
Другими словами, сохранить DOM генерируется
HtmlCleaner как можно ближе к
DOM построен браузером.
Это можно сделать, указав измененный набор информации о тегах, отличный от по умолчанию . Это, очевидно, то, что настраивает «исправления» DOM. (См. здесь , чтобы узнать, как его использовать, если вы используете интерфейс командной строки.)
Или, если вы могли бы предложить какой-то другой
HTML-парсер, DOM которого очень близко
в DOM через браузер, так что xpath
сгенерированный XPather плагин потерпит неудачу
очень редко.
Я бы попробовал HTML Tidy и посмотрел бы, что он делает с DOM. Это широко используемая и зрелая программа для очистки соскобленного HTML.