Как обрабатывать теги вложенных форм с помощью lxml - PullRequest
0 голосов
/ 08 июля 2011

Я хочу очистить некоторые html-страницы с вложенными элементами формы с помощью lxml.Даже BeautifulSoup задыхается на этих страницах, единственный найденный мной анализатор, который может обрабатывать их до сих пор, - это MinimalSoup, который не знает, какие теги могут быть вложенными или нет.

Есть ли в lxml какие-либо анализаторы,заботиться о вложенных тегах формы?Любые другие предложения?

Если потребуется, я просто продолжу использовать MinimalSoup.

1 Ответ

1 голос
/ 02 августа 2011

Как насчет lxml.etree.HTMLParser? Это должно работать относительно хорошо, верно?

import urllib2
import lxml.etree as etree
page = urllib2.urlopen(url)
parser = etree.HTMLParser()
tree = etree.parse(page,parser)

И у тебя есть дерево!

...