Question

Я хочу получить исходный код страницы некоторых сайтов, превратить ее в суп, используя красивый суп, а затем сохранить суп в файле csv для последующего доступа. Однако, поскольку разные сайты используют разные схемы кодирования, при отображении этих страниц с использованием атрибута srcdoc в iframe они выглядят немного деформированными из-за того, что некоторые символы неправильно кодируются в utf8 (это кодировка, которую я использую для чтения файла csv).

Я хочу знать, есть ли способ получить кодировку, используемую для сайта, затем использовать ее для декодирования, а затем кодировать источник в utf8? Если нет, есть ли другой способ решить эту проблему?

Изменить кодировку page_source, полученную с помощью Selenium

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Изменить кодировку page_source, полученную с помощью Selenium

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов