Следующий код печатает группу нежелательных сущностей в HTML
import lxml.html page = lxml.html.parse('http://www.crutchfield.com/m_247250/Satellite-Radio.html?tp=11').getroot() category = page.xpath("//*[text()='By Category']/following-sibling::div[1]")[0] print lxml.html.tostring(category)
все \r заменяются на внутри page.xpath(..). Сам по себе page не имеет никаких проблем:
\r
page.xpath(..)
page
import lxml.html page = lxml.html.parse('http://www.crutchfield.com/m_247250/Satellite-Radio.html?tp=11').getroot() print lxml.html.tostring(page)
Фильтрация '\ r до создания нашего lxml.html.Element работает нормально, однако меня больше интересуют лучшие практики для решения "типа проблемы", если она достаточно обобщаема.