Обычно я использую lxml для своих нужд анализа HTML, но это не доступно в Google App Engine.Очевидная альтернатива - BeautifulSoup , но я нахожу, что она слишком задыхается от неправильного HTMLВ настоящее время я тестирую libxml2dom и получаю лучшие результаты.
Какой из чистых парсеров Python HTML, по вашему мнению, работает лучше всего?Мой приоритет - способность обрабатывать плохой HTML на скорости.