Какой тип кодировки utf8 используется в членах класса String в Java? - PullRequest
1 голос
/ 23 августа 2010

String класс имеет конструктор:

 new String(byte[] bytes, Charset charset)

и метод:

 byte[] getBytes(Charset charset)

Учитывая, что я определяю свой charset следующим образом:

 Charset charset = Charset.forName("UTF-8");

Какую кодировку я на самом деле буду использовать? В частности, это стандарт UTF-8 (как описано в RFC 3629 ), или CESU-8 , или модифицированный UTF-8 ? (См. Также соответствующую статью Википедии )

В случае, если это не стандартный UTF-8, есть ли библиотека, позволяющая выполнять строковые операции в utf8?

Конвертер для этих кодировок, полученных из UTF-8, более чем приветствуется!

1 Ответ

3 голосов
/ 23 августа 2010

Кодировка UTF-8 определяется как RFC 2279 ;формат преобразования, на котором он основан, определен в поправке 2 ISO 10646-1 и также описан в стандарте Unicode .

http://download -llnw.oracle.com / JavaSE / 6 / документы / API / Java / NiO / кодировка / Charset.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...