Я уже искал ответы на подобные вопросы здесь и нашел их много, но у меня все еще есть ноющее сомнение в кажущейся тривиальности вопроса.
Я прочитал этот очень интересный вопрос.полезная статья на эту тему: http://www.joelonsoftware.com/articles/Unicode.html,, но мне стало интересно, как можно было бы идентифицировать отдельные глифы с учетом буфера данных Unicode.
Мои вопросы:
Как мне выполнить синтаксический анализ строки Unicode, скажем, UTF-8?
Если я знаю порядок байтов, что произойдет, когда я столкнусь с началом глифа, который должен быть представлен 6 байтами?
То есть, если я правильно интерпретировал метод хранения.
Это все связано с системой отображения текста, которую я проектирую для работы с OpenGL.Я храню данные глифов в списках отображения, и мне нужно преобразовать содержимое строки в последовательность индексов глифов, которые затем отображаются для отображения индексов списков (поскольку, очевидно, сохранение всего набора глифов в графической памяти не всегда практично).
Чтобы представить каждую строку в виде массива шорт, потребовалось бы значительное количество памяти, учитывая все, что мне нужно отобразить.
Кроме того, мне кажется, что 2 байта насимвола просто недостаточно для представления всех возможных элементов Unicode.