Разбор XHTML с Python 3.2 - PullRequest
       3

Разбор XHTML с Python 3.2

0 голосов
/ 12 декабря 2011

Я пытаюсь проанализировать искаженную страницу XHTML в Python.Я просто хочу получить от него несколько тегов одного типа, но это кажется невозможным.Обычным синтаксическим анализаторам XHTML не нравится неправильное отображение, и BeautifulSoup не будет работать из-за синтаксических ошибок в его коде.Каков наилучший способ разбора искаженного XHTML и получения содержимого пары тегов одного типа?

Ответы [ 3 ]

2 голосов
/ 12 декабря 2011

"Нормальные" парсеры? lxml обычно отлично работает с искаженным html, хотя это вполне "нормально".: -)

0 голосов
/ 13 декабря 2011

Спасибо за помощь! «К сожалению» я решил это сам, используя этот парсер и установив html.parser.HTMLParser(strict=False). Это заставило его читать плохо искаженный XHTML.

0 голосов
/ 12 декабря 2011

Вы можете попробовать pyquery

Я не уверен, насколько искажен ваш XHTML, но стоит попробовать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...