Существует множество способов представления +1 миллиона символов UTF-8 . Возьмите латинскую заглавную букву «А» с макроном (Ā
). Это кодовая точка Unicode U+0100
, шестнадцатеричное число 0xc4 0x80
, десятичное число 196 128
и двоичный код 11000100 10000000
.
Я хотел бы создать коллекцию первых 65 535 символов UTF-8 для использования в тестовых приложениях. Это все символы Unicode вплоть до кодовой точки U+FFFF
(byte3).
Можно ли сделать что-то вроде цикла for($x=0)
, а затем преобразовать полученное десятичное число в другое основание (например, шестнадцатеричное), которое позволит создать соответствующий символ Юникода?
Я могу создать значение Ā
, используя что-то вроде этого:
$char = "\xc4\x80";
// or
$char = chr(196).chr(128);
Однако я не уверен, как превратить это в автоматизированный процесс.
// fail!
$char = "\x". dechex($a). "\x". dexhex($b);