Когда содержимое загружается через текстовое поле, оно сохраняется в формате,,
Формы не должны отправлять содержимое в формате символьной ссылки (&#...;
).
Но в действительности, они делают в большинстве современных браузеров ... но только тогда, когда они не могут отправить рассматриваемый символ любым другим способом. В этом случае вы не можете сказать, был ли пользователь первоначально набрал क
или क
, это кодировка с потерями.
Чтобы избежать этого, убедитесь, что вы обслуживаете свою страницу в кодировке, которая поддерживает все возможные символы Юникода. С практической точки зрения это означает, что всегда используйте UTF-8 и обслуживайте свою страницу с заголовком Content-Type: text/html;charset=utf-8
и / или элементом <meta http-equiv="Content=Type" content="text/html;charset=utf-8"/>
в заголовке. Затем вы получите все символы в простом, не поврежденном формате UTF-8.