user702846 17 февраля 2011 14

извлечение абзаца в python с использованием lxml

user702846 / 17 февраля 2011

Я хотел бы извлечь параграфы в html с помощью python.Я использовал модуль lxml, но он не выполняет то, что я ищу.

print html.parse(url).xpath('//p')[1].text_content()

<span id="midArticle_1"></span><p>Here is the First Paragraph.</p><span id="midArticle_2"></span><p>Here is the second Paragraph.</p><span id="midArticle_3"></span><p>Paragraph Three."</p>

Я должен добавить, что на разных страницах у меня разное количество абзацев, поэтому я хотел бы сделать список и поместитьпосле этого параграф.

1 Ответ

...