Символы в байтах - PullRequest
       19

Символы в байтах

0 голосов
/ 30 апреля 2010

Что такое хорошая оценка / преобразование / формула для определения символов X # = Y # байтов?

Ответы [ 2 ]

5 голосов
/ 30 апреля 2010

Это полностью зависит от кодировки и, возможно, данных.

Для UTF-16, если вы знаете, что все символы находятся в базовой многоязычной плоскости, ответ будет байтов = 2 * символов.

Для UTF-8, если все находится в диапазоне ASCII, тогда байты = символы - но если есть много дальневосточных символов, это может быть целое число байтов = 3 * символов (и это все еще предполагает Базовый многоязычный Plane).

Другие кодировки, очевидно, имеют разные сценарии. Не могли бы вы рассказать подробнее о вашей ситуации (и вашей платформе)? Вы хотите точно рассчитать значение на основе реальных символов? Вы знаете что-нибудь о тексте, который собираетесь кодировать?

0 голосов
/ 30 апреля 2010

Для ANSI я бы подумал 1 байт на символ, но для юникода я бы подумал 2 байта на символ. Хотя, возможно, есть и многобайтовые шаблоны.

...