Question

Обычно я использую lxml для своих нужд анализа HTML, но это не доступно в Google App Engine.Очевидная альтернатива - BeautifulSoup , но я нахожу, что она слишком задыхается от неправильного HTMLВ настоящее время я тестирую libxml2dom и получаю лучшие результаты.

Какой из чистых парсеров Python HTML, по вашему мнению, работает лучше всего?Мой приоритет - способность обрабатывать плохой HTML на скорости.

hoju · Answer 1 · 02 февраля 2010

Больше не проблема - поддерживается lxml: https://developers.google.com/appengine/docs/python/tools/libraries27

Lakshman Prasad · Answer 2 · 29 января 2010

Из документации BeautifulSoup :

Версия 3.1.0 Beautiful Soup значительно хуже работает в реальном HTML, чем версия 3.0.8

Так что, это может помочь вам использовать эту более раннюю версию. Именно это и рекомендует сам автор.

Вы можете сделать вид, что Beautiful Soup версии 3.1.0 никогда не выпускалась. Версия 3.0.8 все еще отлично работает на Python 2.3 до 2.6.

HTML-парсер для GAE

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

HTML-парсер для GAE

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы