Разбор HTML5 с неверным тегом xmllint - PullRequest
0 голосов
/ 16 февраля 2019

Я пытаюсь проанализировать html5 с помощью xmllint, и он генерирует ошибки в определенных тегах.Чтобы убедиться, что он действителен, я сначала прокрутил вывод через tidy, но он выдал те же ошибки.Я только хочу извлечь текст.Есть ли способ прочитать эти недействительные теги?

команда:

echo $s | tidy -o | xmllint --html --xpath 'the xpath to be parsed'

ошибка вывода:

-:178: HTML parser error : Tag svg invalid "21">

версия xmllint:

xmllint: using libxml version 20904
...