Question

Я хочу очистить некоторые html-страницы с вложенными элементами формы с помощью lxml.Даже BeautifulSoup задыхается на этих страницах, единственный найденный мной анализатор, который может обрабатывать их до сих пор, - это MinimalSoup, который не знает, какие теги могут быть вложенными или нет.

Есть ли в lxml какие-либо анализаторы,заботиться о вложенных тегах формы?Любые другие предложения?

Если потребуется, я просто продолжу использовать MinimalSoup.

Snakes and Coffee · Answer 1 · 02 августа 2011

Как насчет lxml.etree.HTMLParser? Это должно работать относительно хорошо, верно?

import urllib2
import lxml.etree as etree
page = urllib2.urlopen(url)
parser = etree.HTMLParser()
tree = etree.parse(page,parser)

И у тебя есть дерево!

Как обрабатывать теги вложенных форм с помощью lxml

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как обрабатывать теги вложенных форм с помощью lxml

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы