lxml - root.xpath () возвращает HtmlElements с заменой \ r на Каковы лучшие методы борьбы с этим? - PullRequest
1 голос
/ 10 февраля 2012

Следующий код печатает группу нежелательных 
 сущностей в HTML

import lxml.html
page = lxml.html.parse('http://www.crutchfield.com/m_247250/Satellite-Radio.html?tp=11').getroot()
category = page.xpath("//*[text()='By Category']/following-sibling::div[1]")[0]
print lxml.html.tostring(category)

все \r заменяются на 
 внутри page.xpath(..). Сам по себе page не имеет никаких проблем:

import lxml.html
page = lxml.html.parse('http://www.crutchfield.com/m_247250/Satellite-Radio.html?tp=11').getroot()
print lxml.html.tostring(page)

Фильтрация '\ r до создания нашего lxml.html.Element работает нормально, однако меня больше интересуют лучшие практики для решения "типа проблемы", если она достаточно обобщаема.

...