Python 3.2 Красивая альтернатива супу - PullRequest
4 голосов
/ 08 ноября 2011

Мне нужно сделать веб-сканер для извлечения информации из веб-страниц.Я провел исследование и обнаружил, что Beautiful Soup был превосходным, поскольку я мог анализировать весь документ и создавать объекты dom и выполнять итерации, извлекать атрибуты и т.д.используя Python 3.2, и для него нет стабильной версии (я думаю, что нет вообще, только 3.1, которую я видел на их домашней странице).

Так что мне нужны хорошие альтернативы.

Ответы [ 3 ]

4 голосов
/ 08 ноября 2011

Похоже, есть версия красивого супа 3.2.0, выпущенная почти год назад. Также есть HTMLParser http://docs.python.org/library/htmlparser.html

2 голосов
/ 13 июля 2012

Я думаю, что последняя версия 4.1.1, вы можете прочитать об этом здесь Документация BS4

Я уже некоторое время использовал BS4 с PHP на своем веб-сайте для этой цели,с отличными результатами.Мне пришлось переключиться обратно на BSv3 из-за проблемы несовместимости PHP / Python, но это отдельно от того, насколько хорошо работает скрипт BS4.

Изначально я использовал встроенный механизм синтаксического анализа HTML, но обнаружил, что это медленно,После установки движка LMXL на мой веб-сервер огромное увеличение скорости!Заметного улучшения фактического разбора нет, но скорость резко возросла.

Я бы попробовал - я рекомендую это, и я попробовал МНОЖЕСТВО различных вариантов, прежде чем я остановился на Прекрасном супе.

Удачи!

1 голос
/ 08 ноября 2011

С домашней страницы lxml :

Последний выпуск работает со всеми версиями CPython от 2.4 до 3.2.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...