Как исправить символы кириллицы при просмотре веб-страниц с помощью Python - PullRequest
0 голосов
/ 23 апреля 2019

Я очищаю кириллический веб-сайт с помощью python, используя BeautifulSoup, но у меня возникают некоторые проблемы, каждое слово отображается так:

СиР»ÑÐ ° новÑкР° Ðа вковР° во ÐÐ ° Ð · и

Я также пробовал некоторые другие кириллические сайты, но они работают хорошо.

Мой код такой:

from bs4 import BeautifulSoup
import requests

source = requests.get('https://').text

soup = BeautifulSoup(source, 'lxml')

print(soup.prettify())

Как мне это исправить?

1 Ответ

2 голосов
/ 23 апреля 2019

requests не может определить его как utf-8.

from bs4 import BeautifulSoup
import requests

source = requests.get('https://time.mk/')  # don't convert to text just yet

# print(source.encoding)
# prints out ISO-8859-1

source.encoding = 'utf-8'  # override encoding manually

soup = BeautifulSoup(source.text, 'lxml')  # this will now decode utf-8 correctly
...