Разница между форматом Unicode? - PullRequest
0 голосов
/ 04 ноября 2011

Я кое-что заметил при загрузке данных Unicode в базу данных.Когда содержимое загружается с помощью текстовой области, оно сохраняется в формате क, но когда вы лично набираете или вставляете юникод и вставляете его в коде php, то оно сохраняется в формате à¤.Но для обоих символов Юникод одинаков .

Теперь, пожалуйста, скажите мне разницу между различными форматами символов Юникода.И как они влияют на развитие.В этих форматах должны быть некоторые ограничения.

Ответы [ 2 ]

2 голосов
/ 04 ноября 2011

Когда содержимое загружается через текстовое поле, оно сохраняется в формате,,

Формы не должны отправлять содержимое в формате символьной ссылки (&#...;).

Но в действительности, они делают в большинстве современных браузеров ... но только тогда, когда они не могут отправить рассматриваемый символ любым другим способом. В этом случае вы не можете сказать, был ли пользователь первоначально набрал или क, это кодировка с потерями.

Чтобы избежать этого, убедитесь, что вы обслуживаете свою страницу в кодировке, которая поддерживает все возможные символы Юникода. С практической точки зрения это означает, что всегда используйте UTF-8 и обслуживайте свою страницу с заголовком Content-Type: text/html;charset=utf-8 и / или элементом <meta http-equiv="Content=Type" content="text/html;charset=utf-8"/> в заголовке. Затем вы получите все символы в простом, не поврежденном формате UTF-8.

2 голосов
/ 04 ноября 2011

& # 2325; - это разметка, используемая в HTML для представления символа Unicode

Если вы жестко запрограммировали что-то в исходном файле php, убедитесь, что вы открываете его в редакторе, который правильно отображает текстовые файлы с символами юникода.

http://www.joelonsoftware.com/articles/Unicode.html - хорошее место для изучения основ юникода.

UTF-8 кодировка क имеет байтовую последовательность E0 A4

Теперь, если кто-то интерпретирует это как 8-битное латинское кодирование , он подумает, что это два символа

Вы увидите в таблице выше ссылку E0 - а, а A4 - ¤

...