Кодирование строки Java с использованием UTF char \ & \ # 232 - PullRequest
0 голосов
/ 14 июля 2011

У меня есть строки, содержащие странные UTF-символы ... как я могу с этим справиться?

, например, è = \ è ...

, поэтому у меня есть

String str = "Pel\&\#232" ;
String correct str2 =??? ; // i'd like to have "Pelè"

тогда у меня есть куча этих странных символов, и я действительно не знаю, как с этим справиться ...

Другой пример: "J. Ho \ řej \ š"

Может ли кто-нибудь помочь?


Большое спасибо за ваш ответ.
Я читаю большой текстовый файл, загруженный с веб-сайта, который я не могу изменить.В самом файле имя человека сохраняется таким образом.Не является кодировкой файла.Также я не могу сделать это вручную, потому что у меня есть 300 имен с этой проблемой.

другой пример:

в текстовом файле имя человека - "Константин Сарбу", которое должно быть Сырбу

Я застрял

РЕДАКТИРОВАТЬ *** Я решил создать ручную функцию, чтобы связать значение HTML с юникодом ... Мне понадобилось время, но это работает.

Ответы [ 4 ]

1 голос
/ 15 июля 2011

Символ Java Unicode выглядит как \uXXXX XXXX - это ровно четыре шестнадцатеричные цифры и без окончания;или что-то еще необходимое.

Java нужен свой Unicode в шестнадцатеричном формате, но ваш 232 является основанием 10. Также Java всегда требует четырех шестнадцатеричных цифр.Поскольку 232 динара равны гексу E8, это дает è = \u00E8 в строке Java:

System.out.println("Pel\u00E8 was a great footballer.");
1 голос
/ 14 июля 2011

Я думаю, вы можете просто вставить è в строку.Что-то вроде: String s = "Pelè";

0 голосов
/ 18 сентября 2011

Вы говорите, что не можете изменить входной файл, но как насчет создания промежуточного файла с нужным текстом?

perl -pe 's/\\&#(\d+)/ sprintf("\\u%04X", $1) /ge' inputfile >intermediate
0 голосов
/ 14 июля 2011

Просто установите кодировку ваших исходных файлов в UTF-8 (это должно быть сделано в настройках вашего редактора).Тогда просто используйте String str = "Pelè".

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...