Символы, требующие 3 байта, начинаются с U + 0800 и всех последующих символов, так что это ОГРОМНОЕ количество потенциальных символов. Это включает восточноазиатские шрифты, такие как японский, китайский, корейский и тайский.
Полный список диапазонов сценариев можно найти в Данные блока Unicode . Только эти блоки могут быть представлены 1 или 2 байтами, символы из всех других блоков требуют 3 или 4 байта:
0000..007F Basic Latin
0080..00FF Latin-1 Supplement
0100..017F Latin Extended-A
0180..024F Latin Extended-B
0250..02AF IPA Extensions
02B0..02FF Spacing Modifier Letters
0300..036F Combining Diacritical Marks
0370..03FF Greek and Coptic
0400..04FF Cyrillic
0500..052F Cyrillic Supplement
0530..058F Armenian
0590..05FF Hebrew
0600..06FF Arabic
0700..074F Syriac
0750..077F Arabic Supplement
0780..07BF Thaana
07C0..07FF NKo