парсинг HTML-тега doctype в Nokogiri - PullRequest
4 голосов
/ 14 апреля 2011

Как я могу разобрать тег doctype для получения html-версии из html-файла?

Попытка использовать doctype (или DOCTYPE или! DOCTYPE) в качестве аргумента в xpath вызывает ошибку неверного выражения.

1 Ответ

5 голосов
/ 16 июля 2011

Тип документа не является частью документа, но является частью его DTD

require 'rubygems'
require 'nokogiri'

html = <<EOF
<!DOCTYPE foo PUBLIC "bar" "qux">
<html>
</html>
EOF

doc = Nokogiri::HTML(html)

puts doc.internal_subset.name
puts doc.internal_subset.external_id
puts doc.internal_subset.system_id
...