Я пытаюсь собрать некоторые данные с бразильского веб-сайта, используя Requests-HTML. Оказывается, однако, что данные, которые я ожидаю получить с помощью атрибута 'text' метода 'response.html.find (' p ')', каким-то образом повреждаются.
Я знаю, что по умолчанию в библиотеке используется iso-8859-1, поэтому я явно сказал объекту сеанса использовать utf-8.
from requests_html import HTML, HTMLSession
session = HTMLSession()
r = session.get("http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2015/lei/l13105.htm")
r.coding = 'utf-8'
r.encoding = 'utf-8'
r.html.encoding = 'utf-8'
els = r.html.find("p")
print(els[4000].text)
Ожидаемый результат будет:
"Статья 1.026. Заявление о запрете деклараций и возражений, связанных с перерывом между делами и возвращением."
однако я получаю:
«Статья 1.026. Заявление о запрете и запрете на совершение правонарушений в межличностных отношениях между прародителями и возвращением».