Question

В моем текстовом файле я использовал символ со значением больше 127, например 0xDC. Затем я загрузил этот текстовый файл в устройство. Затем я читаю этот текстовый файл и этот символ. Затем персонаж был изменен на 0xC3 и 0x9C. Как это может измениться на два символа?

Спасибо

Ignacio Vazquez-Abrams · Answer 1 · 10 февраля 2010

Потому что это последовательность символов при кодировании в UTF-8:

>>> '\xc3\x9c'.decode('utf-8')
u'\xdc'

Tanner · Answer 2 · 10 февраля 2010

Из википедии:

"UTF-8 кодирует каждый символ (кодовую точку) от 1 до 4 октетов (8-битных байтов), при этом кодирование одного октета используется только для 128 символов US-ASCII."

UTF-8 символ меняется на два символа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

UTF-8 символ меняется на два символа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов