Есть ли хороший анализатор HTML, как HtmlAgilityPack (.NET) для Python? - PullRequest
2 голосов
/ 03 августа 2009

Я ищу хороший html-анализатор, такой как HtmlAgilityPack (проект с открытым исходным кодом .NET: http://www.codeplex.com/htmlagilitypack),, но для использования с Python.

Кто-нибудь знает?

Ответы [ 3 ]

8 голосов
/ 03 августа 2009

Другие рекомендовали BeautifulSoup, но гораздо лучше использовать lxml . Несмотря на название, он также предназначен для анализа и очистки HTML. Это намного, намного быстрее, чем BeautifulSoup, и он даже обрабатывает «сломанный» HTML лучше, чем BeautifulSoup (их претензия на известность). Он также имеет API совместимости для BeautifulSoup, если вы не хотите изучать lxml API.

Ян Бликинг соглашается .

Больше нет смысла использовать BeautifulSoup, если только вы не используете Google App Engine или что-то, где нет ничего, кроме Python.

8 голосов
/ 03 августа 2009

Используйте Красивый суп , как все.

0 голосов
/ 03 августа 2009

Красивый суп должен быть тем, что вы ищете. Это анализатор HTML / XML, который может работать с недопустимыми страницами и позволяет, например, перебирать определенные теги.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...