Как я могу заставить Hpricot хорошо играть с HTML5? - PullRequest
3 голосов
/ 18 мая 2010

Я использую Hpricot для разбора файла темы. Однако я заметил, что, если я передаю действительный документ HTML5 в Hpricot (), он автоматически закрывает теги HTML5 (например, <section>) и портится с DOCTYPE.

Существуют ли какие-либо расширения для Hpricot или, возможно, мне нужно установить флаг, который позволит правильно анализировать документы HTML5?

Ответы [ 2 ]

2 голосов
/ 30 января 2011

Я знаю, что это работает вокруг прямого вопроса, но я бы посоветовал вам попробовать Nokogiri http://nokogiri.org/, как упомянуто в некоторых комментариях к вашему посту с вопросом. У меня не было проблем с этим при разборе любого HTML / XML-подобного структурированного текста, включая HTML5.

0 голосов
/ 25 февраля 2011

Я думаю, что метод Hpricot to_original_html - это именно то, что вы ищете.

Из документов to_original_html

Пытается сохранить исходный HTML-код документа, выводя только новые теги для элементов, которые изменились.

...