Сколько символов можно сохранить в 4 КБ? - PullRequest
71 голосов
/ 04 ноября 2010

Сколько символов я могу хранить в 4 КБ, если символы в кодировке utf-8?

Ответы [ 2 ]

95 голосов
/ 04 ноября 2010

В символах UTF-8 требуется от 1 до 4 байтов. Таким образом, вы можете хранить от 4096 до 1024 символов UTF-8 соответственно в 4 КБ.

Я бы предположил, что во многих случаях вы можете ожидать, что большинство символов помещается в один байт, а почти все в 2.

14 голосов
/ 04 ноября 2010

Символ UTF-8 состоит из 1-4 байтов, поэтому он зависит от того, какой символ вы кодируете. Большинство англичан использует 1 байт для каждого символа. Другие западные языки используют 2 байта. Азиатские символы могут использовать 4 байта.

Таким образом, ответ от 1024 до 4096 в зависимости от символов. Кроме того, в среде Windows вам может понадобиться 3-байтовая спецификация в начале документа, которая уменьшит количество символов, которое можно уместить в 4 КБ. См. Статью в Википедии об UTF-8 .

...