Question

Я пытаюсь проанализировать искаженную страницу XHTML в Python.Я просто хочу получить от него несколько тегов одного типа, но это кажется невозможным.Обычным синтаксическим анализаторам XHTML не нравится неправильное отображение, и BeautifulSoup не будет работать из-за синтаксических ошибок в его коде.Каков наилучший способ разбора искаженного XHTML и получения содержимого пары тегов одного типа?

Lennart Regebro · Answer 1 · 12 декабря 2011

"Нормальные" парсеры? lxml обычно отлично работает с искаженным html, хотя это вполне "нормально".: -)

user1049697 · Answer 2 · 13 декабря 2011

Спасибо за помощь! «К сожалению» я решил это сам, используя этот парсер и установив html.parser.HTMLParser(strict=False). Это заставило его читать плохо искаженный XHTML.

ukessi · Answer 3 · 12 декабря 2011

Вы можете попробовать pyquery

Я не уверен, насколько искажен ваш XHTML, но стоит попробовать.

Разбор XHTML с Python 3.2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбор XHTML с Python 3.2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов