Преобразование любой кодировки в UTF8 в Python? - PullRequest
2 голосов
/ 07 августа 2011

Я сканирую веб-страницы с разных сайтов, и они имеют разные кодировки.Образец кодировок, которые я получаю, -

  • Big5
  • TIS-620
  • utf-16le
  • shift_JIS
  • EUC-JP
  • MacCyrillic
  • koi8-r

, за исключением более распространенных кодировок.Я могу получить исходный код Unicode для веб-страницы путем декодирования с использованием вышеуказанных кодировок.

У меня такой вопрос: я хотел бы сохранить все файлы как utf8.Если я закодирую исходный код Unicode с помощью utf8, будет ли он работать на всех веб-страницах?Поддерживает ли utf8 все кодовые точки Unicode?

Ответы [ 2 ]

4 голосов
/ 07 августа 2011

Да, UTF-8 - это не что иное, как схема хранения целых чисел в байтах таким образом, что меньшие целые числа занимают меньше байтов.В результате значения, меньшие 128, хранятся в одном байте, поэтому ASCII остается ASCII.UTF-8 может представлять все кодовые точки Unicode.

1 голос
/ 07 августа 2011

Коротко и сладко, ........ да!

...