Статья в Википедии о UTF-8 содержит достаточно хорошее описание кодировки:
- 1 байт = кодовые точки от 0x000000 до 0x00007F (включительно)
- 2 байта = кодовые точки от 0x000080 до 0x0007FF
- 3 байта = кодовые точки от 0x000800 до 0x00FFFF
- 4 байта = кодовые точки от 0x010000 до 0x10FFFF
Диаграммы могут бытьзагружается непосредственно с unicode.org .Это набор из примерно 150 PDF-файлов, потому что одна диаграмма будет огромной (возможно, 30 МБ).
Также следует помнить, что Unicode (по сравнению с чем-то вроде ASCII) гораздо сложнее обрабатывать - есть такие вещи, кактекст справа налево, метки порядка байтов, кодовые точки, которые могут быть объединены («составлены») для создания одного символа и различные способы представления одной и той же строки (и процесс преобразования строк в каноническую форму, подходящую для сравнения), намного больше пробелов и т. д. Я бы порекомендовал загрузить всю спецификацию Unicode и прочитать большую ее часть, если вы планируете делать больше, чем «не так уж много».