Отключить исправление ошибок в Nokogiri - PullRequest
3 голосов
/ 03 октября 2011

Я работаю с несколькими искаженными HTML-страницами.По крайней мере, я предполагаю, что они искажены, потому что, когда я анализирую их в Nokogiri и затем выполняю to_html, элементы больше не отображаются правильно.Однако когда я анализирую их с помощью Hpricot, они отображаются правильно.

Я бы предпочел не использовать Hpricot, потому что кажется невозможным добавлять экземпляры Hpricot :: Elem в документ (без преобразования их в строки, добавляя, затем снова анализируем).

Можно ли отключить исправление ошибок Нокогири, чтобы сохранить HTML-код ближе к тому, как он был написан?

1 Ответ

2 голосов
/ 13 октября 2011

Ваш XHTML не является действительным XHTML.Если я копирую содержимое из http://pastie.org/2638305,, сохраняю их как 'foo.xhtml' и затем пытаюсь открыть их в Chrome, я вижу:

Эта страница содержит следующие ошибки:
ошибка в строке 768 в столбце 39: ошибка построения атрибутов

Если я смотрю в строке 768, то вижу (усечено):

<img src="..." alt="Talk to us now!"http://wholesaleinsurance.net/>

какВы можете видеть, что это явно не синтаксически допустимо.

Вы утверждаете, что провели страницу через validator.w3.org, но когда я делаю это с содержимым вашей копии, я получаю:

Обнаружены ошибки при проверке этого документа как строгого XHTML 1.0!
Результат: 15 ошибок, 3 предупреждения (ов)

Итак ... ваш фактический контент не тот, который вы вставили впирожок?

...