Согласно документам, в настоящее время методы .extract()
и .getall()
возвращают необработанный html с символами юникода, такими как \xa0
, то есть
. Подробнее здесь .
Однако методы .extract_first()
и .get()
возвращают только первое в списке, и выводом является без символов Юникода. ( Документы )
print(sel.xpath('//body').get())
Выходы:
<body><span>go od</span></body>
Но если вы действительно хотите иметь
символов вместо ''
или \xa0
. Тогда одним из решений является обычная замена строки для этих символов.
Пример:
body = sel.xpath('//body').extract()
result = [i.replace('\xa0', ' ') for i in body]
print(result)
Выходы:
['<body><span>go od</span></body>']