извлечение абзаца в python с использованием lxml - PullRequest
1 голос
/ 17 февраля 2011

Я хотел бы извлечь параграфы в html с помощью python.Я использовал модуль lxml, но он не выполняет то, что я ищу.

print html.parse(url).xpath('//p')[1].text_content()

<span id="midArticle_1"></span><p>Here is the First Paragraph.</p><span id="midArticle_2"></span><p>Here is the second Paragraph.</p><span id="midArticle_3"></span><p>Paragraph Three."</p>

Я должен добавить, что на разных страницах у меня разное количество абзацев, поэтому я хотел бы сделать список и поместитьпосле этого параграф.

1 Ответ

3 голосов
/ 17 февраля 2011
print html.parse(url).xpath('//p/text()')

выход

['Here is the First Paragraph.', 'Here is the second Paragraph.', 
 'Paragraph Three."']
...