Почему у персонажа есть собственный код ISO (EB), а у него нет? - PullRequest
0 голосов
/ 24 сентября 2019

Я столкнулся с непростой проблемой с персонажем (маленькая буква e с точкой над ним).Я специально использую FPDF для генерации PDF-файлов в PHP, и он не будет поддерживать символ ė.

Я заметил, что в Википедии гекс ISO для ė совпадает с ë.Оба являются EB.https://en.wikipedia.org/wiki/Ė https://en.wikipedia.org/wiki/%C3%8B

Почему в ИСО одинаковые символы считаются одинаковыми?

1 Ответ

3 голосов
/ 24 сентября 2019

Вы ошибаетесь.

ISO - это стандартная организация, и у нее много стандартов.Unicode также имеет параллельный стандарт ISO (ISO 10646).И у нас были другие стандарты ISO для текстов.

Вместо этого вы ищете ISO 8859, который состоит из нескольких частей: https://en.wikipedia.org/wiki/ISO/IEC_8859

Это 8-битный кодировщик символов, так что выимеют очень ограниченный набор символов (256 минус 32 символа).По этой причине есть много разных частей, и один выбирает то, что лучше подходит для собственной страны / языка.Вы можете выбрать Latin-1 для западноевропейских языков или лучше Latin-9 (часть 15), которая включает в себя «новый» символ: символ евро (валюта).

В вашем примере у вас есть коды для конкретного языкаEB.В части 13 (латиница-7) это ė (Прибалтика), но в части 1, 2, 3, 4, 9, 10, 14, 15 и части 16 это ë.Как видите, этот вариант используется во многих других языках, поэтому он доступен в большинстве частей ISO 8859.На странице, на которую я ссылался выше, вы также видите таблицу с каждым вариантом для каждого кода / значения.

Основная проблема сейчас заключается в обнаружении оригинальной кодировки.Это может быть очень проблематичным для людей, которые не могут оценить, какой язык, так и написание текста.Для нового текста лучше использовать Unicode, который уникален (реальный текст не имеет байтового шаблона Unicode)

...