Разбирать абзацы из HTML, используя lxml - PullRequest
2 голосов
/ 16 октября 2011

Я новичок в lxml и хочу извлечь <p>PARAGRAPHS</p> и <li>PARAGRAPHS</li> из заданного URL и использовать их для дальнейших действий.

Я последовал примеру из записи ,и безуспешно попробовал следующий код:

html = lxml.html('http://www.google.com/intl/en/about/corporate/index.html')
url = 'http://www.google.com/intl/en/about/corporate/index.html'
print html.parse.xpath('//p/text()')

Я попытался просмотреть примеры в lxml.html , но не нашел ни одного примера с использованием URL.

Не могли бы вы подсказать, какие методы мне следует использовать?Спасибо.

1 Ответ

7 голосов
/ 16 октября 2011
import lxml.html

htmltree = lxml.html.parse('http://www.google.com/intl/en/about/corporate/index.html')

print htmltree.xpath('//p/text()')
...