Question

Как получить исходные html-сущности после использования селектора lxml / scrapy xpath?

Я уже пробовал lxml вместо пакета parsel, та же проблема.

mytext = '<html><body><span>go&nbsp;od</span></body></html>'
sel = parsel.Selector(text=mytext)
sel.xpath('//body').extract()

Фактический вывод:

['<body><span>go\xa0od</span></body>']

Ожидаемый вывод:

['<body><span>go&nbsp;od</span></body>']

  обратился, как сохранить их как есть?

Rithin Chalumuri · Answer 1 · 06 ноября 2019

Согласно документам, в настоящее время методы .extract() и .getall() возвращают необработанный html с символами юникода, такими как \xa0, то есть  . Подробнее здесь .

Однако методы .extract_first() и .get() возвращают только первое в списке, и выводом является без символов Юникода. ( Документы )

print(sel.xpath('//body').get())

Выходы:

<body><span>go od</span></body>

Но если вы действительно хотите иметь   символов вместо '' или \xa0. Тогда одним из решений является обычная замена строки для этих символов.

Пример:

body = sel.xpath('//body').extract()

result = [i.replace('\xa0', '&nbsp;') for i in body]

print(result)

Выходы:

['<body><span>go&nbsp;od</span></body>']

Может ли селектор lxml / scrapy не передавать html-сущности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Может ли селектор lxml / scrapy не передавать html-сущности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы