Последняя версия Unicode поддерживает более 109 000 символов в 93 различных сценариях.Математически, минимальное число байтов, которое вам нужно для кодирования этого количества кодовых точек, равно 3, поскольку это информация, содержащая 17 битов.(Unicode на самом деле резервирует 21-битный диапазон, но он по-прежнему умещается в 3 байта.) Поэтому можно разумно ожидать, что каждому символу потребуется 3 байта в наиболее простой кодируемой кодировке, в которой каждый символ представлен в видецелое число, использующее наименьшее возможное целое число байтов.(На самом деле, как указывает dan04, вам нужно 4 байта, чтобы получить всю функциональность Unicode.)
Обычный метод сжатия данных - использование коротких токенов для представления часто встречающихся элементов, даже если это означает, чтонечасто встречающимся элементам потребуются более длинные токены, чем они могли бы в противном случае.UTF-8 - это кодировка Unicode, которая использует этот подход для хранения текста, написанного на английском и других европейских языках, в меньшем количестве байтов за счет необходимости большего количества байтов для текста, написанного на других языках.В UTF-8 наиболее распространенным латинским символам требуется только 1 байт (UTF-8 перекрывается с ASCII для удобства пользователей на английском языке), а другим общим символам требуется только 2 байта.Но некоторым символам требуется 3 или даже 4 байта, что больше, чем им было бы необходимо в «наивной» кодировке.Конкретный символ, о котором вы спрашиваете, нуждается в 3 байтах в UTF-8 по определению.
В UTF-16, случается, этой кодовой точке потребуется только 2 байта, хотя другим символам потребуется 4 (естьнет 3-х байтовых символов в UTF-16).Если вы действительно заинтересованы в эффективности использования пространства, сделайте так, как предлагает Джон Мачин в своем комментарии, и используйте кодировку, разработанную таким образом, чтобы максимально экономить пространство для вашего языка.