Question

Следующий код печатает группу нежелательных  сущностей в HTML

import lxml.html
page = lxml.html.parse('http://www.crutchfield.com/m_247250/Satellite-Radio.html?tp=11').getroot()
category = page.xpath("//*[text()='By Category']/following-sibling::div[1]")[0]
print lxml.html.tostring(category)

все \r заменяются на  внутри page.xpath(..). Сам по себе page не имеет никаких проблем:

import lxml.html
page = lxml.html.parse('http://www.crutchfield.com/m_247250/Satellite-Radio.html?tp=11').getroot()
print lxml.html.tostring(page)

Фильтрация '\ r до создания нашего lxml.html.Element работает нормально, однако меня больше интересуют лучшие практики для решения "типа проблемы", если она достаточно обобщаема.

lxml - root.xpath () возвращает HtmlElements с заменой \ r на Каковы лучшие методы борьбы с этим?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

lxml - root.xpath () возвращает HtmlElements с заменой \ r на Каковы лучшие методы борьбы с этим?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы