Проблема с кодированием при поиске в сети Pyhton - PullRequest
2 голосов
/ 30 апреля 2020

Знаете ли вы, почему я получаю этот ID ÐоÑРееÑÑÑÐ ° вместо получения ID ГосРеестра . Я знаю, что есть некоторая проблема с кодировкой, потому что это кириллы c. Понятия не имею, как ее решить.

Соскребающая веб-страница ссылка

Мой код:

dfo_url = "https://opi.dfo.kz/p/ru/DfoObjects/objects/teaser-view/26730?OptionName=ExtraData"
r = requests.get(dfo_url)

tree = html.fromstring(r.content)
tr_elements = tree.xpath('//tr')
#Create empty list
col=[]
i=0
#For each row, store each first element (header) and an empty list
for t in tr_elements[2]:
    i+=1
    name=t.text_content()

    print ('%d:"%s"'%(i,name))
    col.append((name,[]))

1 Ответ

2 голосов
/ 30 апреля 2020

Это может исправить это, попробуйте сделать это прямо перед печатью:

name.encode(encoding='UTF-8',errors='strict')

Или попробуйте эту ссылку.

...