Question

Я использую BeautifulSoup и urllib2 для загрузки HTML-страниц и их анализа. Проблема с неправильно сформированными HTML-страницами. Хотя BeautifulSoup хорошо справляется с неправильной версией HTML, он все же не так хорош, как Firefox.

Учитывая, что Firefox или Webkit более обновлены и устойчивы при работе с HTML, я думаю, что их идеально использовать для построения и нормализации дерева DOM страницы, а затем манипулировать им через Python.

Однако я не могу найти привязку к Python для того же. Кто-нибудь может предложить способ?

Я столкнулся с некоторыми решениями для запуска безголового процесса Firefox и манипулирования им через python, но есть ли более питонное решение.

user362834 · Answer 1 · 09 октября 2010

см. http://wiki.python.org/moin/WebBrowserProgramming

вариантов довольно много - я веду страницу выше, чтобы не повторяться.

вам следует взглянуть на рабочий стол пижамы: см. Пример examples / uitest, потому что мы используем именно этот трюк, чтобы «копировать» копии HTML-страницы, чтобы можно было проверить компилятор python-to-javascript, сравнив страницу результаты после каждого модульного теста.

каждая среда выполнения, поддерживаемая и используемая Pajamas-Desktop, способна разрешить доступ к свойству "innerHTML" элемента body документа (и чертовски много другого).

Итог: делать то, что вы хотите, тривиально, но вы должны знать, где искать, чтобы узнать, как это сделать.

л.

Chawathe Vipul · Answer 2 · 06 июля 2013

Вам может понравиться PyWebkitDFB из http://www.gnu.org/software/pythonwebkit/

Используя Gecko / Firefox или Webkit, мы получили разбор HTML в python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Используя Gecko / Firefox или Webkit, мы получили разбор HTML в python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов