Обычно используемые символы Hanzi / Kanji находятся в блоке «CJK Unified Ideographs» между U + 4E00 и U + 9FFF и занимают 3 байта в UTF-8.(Японские символы хирагана и катакана также занимают 3 байта.)
Однако, есть также очень редко используемые символы в блоках "CJK Unified Ideographs Extension B" и "CJK Compatibility Supplement Supplement", которые принимают4 байта в UTF-8.
Также следует помнить, что китайский текст часто содержит символы ASCII, например цифры 0-9.