HTML-парсер для GAE - PullRequest
       16

HTML-парсер для GAE

5 голосов
/ 29 января 2010

Обычно я использую lxml для своих нужд анализа HTML, но это не доступно в Google App Engine.Очевидная альтернатива - BeautifulSoup , но я нахожу, что она слишком задыхается от неправильного HTMLВ настоящее время я тестирую libxml2dom и получаю лучшие результаты.

Какой из чистых парсеров Python HTML, по вашему мнению, работает лучше всего?Мой приоритет - способность обрабатывать плохой HTML на скорости.

Ответы [ 2 ]

5 голосов
/ 02 февраля 2010

Больше не проблема - поддерживается lxml: https://developers.google.com/appengine/docs/python/tools/libraries27

5 голосов
/ 29 января 2010

Из документации BeautifulSoup :

Версия 3.1.0 Beautiful Soup значительно хуже работает в реальном HTML, чем версия 3.0.8

Так что, это может помочь вам использовать эту более раннюю версию. Именно это и рекомендует сам автор.

Вы можете сделать вид, что Beautiful Soup версии 3.1.0 никогда не выпускалась. Версия 3.0.8 все еще отлично работает на Python 2.3 до 2.6.

...