Все ли символы кандзи в UTF-8 3 байта? - PullRequest
19 голосов
/ 09 сентября 2010

Может ли кто-нибудь подтвердить, что все символы кандзи на китайском языке имеют длину 3 байта в UTF-8?

Ответы [ 2 ]

27 голосов
/ 10 сентября 2010

Обычно используемые символы Hanzi / Kanji находятся в блоке «CJK Unified Ideographs» между U + 4E00 и U + 9FFF и занимают 3 байта в UTF-8.(Японские символы хирагана и катакана также занимают 3 байта.)

Однако, есть также очень редко используемые символы в блоках "CJK Unified Ideographs Extension B" и "CJK Compatibility Supplement Supplement", которые принимают4 байта в UTF-8.

Также следует помнить, что китайский текст часто содержит символы ASCII, например цифры 0-9.

2 голосов
/ 09 сентября 2010

Да, кандзи - от U + 4e00 до U + 9faf, UTF8 3 байта - от U + 0800 до U + FFFF.

...