HTMLSession, по-видимому, использует текстовые значения по умолчанию в неправильной кодировке даже после явного указания - PullRequest
0 голосов
/ 10 июля 2019

Я пытаюсь собрать некоторые данные с бразильского веб-сайта, используя Requests-HTML. Оказывается, однако, что данные, которые я ожидаю получить с помощью атрибута 'text' метода 'response.html.find (' p ')', каким-то образом повреждаются.

Я знаю, что по умолчанию в библиотеке используется iso-8859-1, поэтому я явно сказал объекту сеанса использовать utf-8.

from requests_html import HTML, HTMLSession

session = HTMLSession()
r = session.get("http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2015/lei/l13105.htm")
r.coding = 'utf-8'
r.encoding = 'utf-8'
r.html.encoding = 'utf-8'

els = r.html.find("p")
print(els[4000].text)

Ожидаемый результат будет:

"Статья 1.026. Заявление о запрете деклараций и возражений, связанных с перерывом между делами и возвращением."

однако я получаю: «Статья 1.026. Заявление о запрете и запрете на совершение правонарушений в межличностных отношениях между прародителями и возвращением».

...