Используя Gecko / Firefox или Webkit, мы получили разбор HTML в python - PullRequest
6 голосов
/ 23 апреля 2009

Я использую BeautifulSoup и urllib2 для загрузки HTML-страниц и их анализа. Проблема с неправильно сформированными HTML-страницами. Хотя BeautifulSoup хорошо справляется с неправильной версией HTML, он все же не так хорош, как Firefox.

Учитывая, что Firefox или Webkit более обновлены и устойчивы при работе с HTML, я думаю, что их идеально использовать для построения и нормализации дерева DOM страницы, а затем манипулировать им через Python.

Однако я не могу найти привязку к Python для того же. Кто-нибудь может предложить способ?

Я столкнулся с некоторыми решениями для запуска безголового процесса Firefox и манипулирования им через python, но есть ли более питонное решение.

Ответы [ 3 ]

1 голос
/ 09 октября 2010

см. http://wiki.python.org/moin/WebBrowserProgramming

вариантов довольно много - я веду страницу выше, чтобы не повторяться.

вам следует взглянуть на рабочий стол пижамы: см. Пример examples / uitest, потому что мы используем именно этот трюк, чтобы «копировать» копии HTML-страницы, чтобы можно было проверить компилятор python-to-javascript, сравнив страницу результаты после каждого модульного теста.

каждая среда выполнения, поддерживаемая и используемая Pajamas-Desktop, способна разрешить доступ к свойству "innerHTML" элемента body документа (и чертовски много другого).

Итог: делать то, что вы хотите, тривиально, но вы должны знать, где искать, чтобы узнать, как это сделать.

л.

1 голос
/ 23 апреля 2009

Возможно, pywebkitgtk сделает то, что вам нужно.

0 голосов
/ 06 июля 2013

Вам может понравиться PyWebkitDFB из http://www.gnu.org/software/pythonwebkit/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...