Я хочу получить исходный код страницы некоторых сайтов, превратить ее в суп, используя красивый суп, а затем сохранить суп в файле csv для последующего доступа. Однако, поскольку разные сайты используют разные схемы кодирования, при отображении этих страниц с использованием атрибута srcdoc в iframe они выглядят немного деформированными из-за того, что некоторые символы неправильно кодируются в utf8 (это кодировка, которую я использую для чтения файла csv).
Я хочу знать, есть ли способ получить кодировку, используемую для сайта, затем использовать ее для декодирования, а затем кодировать источник в utf8? Если нет, есть ли другой способ решить эту проблему?