Извлечение раздела с веб-страницы с использованием Python - PullRequest
0 голосов
/ 27 февраля 2012

Я хочу извлечь раздел теста для симптомов раздела с сайта ниже, используя python и lxml.Может кто-нибудь, пожалуйста, помогите.

http://www.ncbi.nlm.nih.gov/pubmedhealth/PMH0001851/

Спасибо,

1 Ответ

1 голос
/ 27 февраля 2012

Вы хотите очистить веб-страницу с помощью lxml?попробуйте это:

 from lxml.html import parse
 doc = parse("http://www.ncbi.nlm.nih.gov/pubmedhealth/PMH0001851/").getroot()
 for h2 in doc.cssselect('h2'):
     print h2.text_content()

это откроет захватить h2s со страницы

...