Я хочу извлечь раздел теста для симптомов раздела с сайта ниже, используя python и lxml.Может кто-нибудь, пожалуйста, помогите.
http://www.ncbi.nlm.nih.gov/pubmedhealth/PMH0001851/
Спасибо,
Вы хотите очистить веб-страницу с помощью lxml?попробуйте это:
from lxml.html import parse doc = parse("http://www.ncbi.nlm.nih.gov/pubmedhealth/PMH0001851/").getroot() for h2 in doc.cssselect('h2'): print h2.text_content()
это откроет захватить h2s со страницы