Изменить кодировку page_source, полученную с помощью Selenium - PullRequest
0 голосов
/ 24 июня 2019

Я хочу получить исходный код страницы некоторых сайтов, превратить ее в суп, используя красивый суп, а затем сохранить суп в файле csv для последующего доступа. Однако, поскольку разные сайты используют разные схемы кодирования, при отображении этих страниц с использованием атрибута srcdoc в iframe они выглядят немного деформированными из-за того, что некоторые символы неправильно кодируются в utf8 (это кодировка, которую я использую для чтения файла csv).

Я хочу знать, есть ли способ получить кодировку, используемую для сайта, затем использовать ее для декодирования, а затем кодировать источник в utf8? Если нет, есть ли другой способ решить эту проблему?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...