Question

Я пытаюсь преобразовать строку, закодированную в Java в UTF-8, в ISO-8859-1. Скажем, например, в строке 'âabcd' 'â в ISO-8859-1 обозначено как E2. В UTF-8 он представлен в виде двух байтов. С3 А2 я верю. Когда я делаю getbytes (кодирование), а затем создаю новую строку с байтами в кодировке ISO-8859-1, я получаю два разных символа. Ã ¢. Есть ли другой способ сделать это так, чтобы персонаж оставался прежним, то есть âabcd?

Adam Rosenfield · Answer 1 · 17 марта 2009

Если вы имеете дело с кодировками символов, отличными от UTF-16, вам не следует использовать java.lang.String или char примитив - вы должны использовать только byte[] массивы или ByteBuffer объекты. Затем вы можете использовать java.nio.charset.Charset для преобразования между кодировками:

Charset utf8charset = Charset.forName("UTF-8");
Charset iso88591charset = Charset.forName("ISO-8859-1");

ByteBuffer inputBuffer = ByteBuffer.wrap(new byte[]{(byte)0xC3, (byte)0xA2});

// decode UTF-8
CharBuffer data = utf8charset.decode(inputBuffer);

// encode ISO-8559-1
ByteBuffer outputBuffer = iso88591charset.encode(data);
byte[] outputData = outputBuffer.array();

Joachim Sauer · Answer 2 · 17 марта 2009

byte[] iso88591Data = theString.getBytes("ISO-8859-1");

сделает свое дело. Из вашего описания кажется, что вы пытаетесь «сохранить строку ISO-8859-1». Строковые объекты в Java всегда неявно кодируются в UTF-16. Нет никакой возможности изменить эту кодировку.

То, что вы можете сделать, 'это получить байты, которые составляют его другую кодировку (используя метод .getBytes (), как показано выше).

Pete Kirkham · Answer 3 · 18 марта 2009

Начиная с набора байтов, которые кодируют строку с использованием UTF-8, создают строку из этих данных, затем получают несколько байтов, кодирующих строку в другой кодировке:

    byte[] utf8bytes = { (byte)0xc3, (byte)0xa2, 0x61, 0x62, 0x63, 0x64 };
    Charset utf8charset = Charset.forName("UTF-8");
    Charset iso88591charset = Charset.forName("ISO-8859-1");

    String string = new String ( utf8bytes, utf8charset );

    System.out.println(string);

    // "When I do a getbytes(encoding) and "
    byte[] iso88591bytes = string.getBytes(iso88591charset);

    for ( byte b : iso88591bytes )
        System.out.printf("%02x ", b);

    System.out.println();

    // "then create a new string with the bytes in ISO-8859-1 encoding"
    String string2 = new String ( iso88591bytes, iso88591charset );

    // "I get a two different chars"
    System.out.println(string2);

это выводит строки и байты iso88591 правильно:

âabcd 
e2 61 62 63 64 
âabcd

Таким образом, ваш байтовый массив не был связан с правильной кодировкой:

    String failString = new String ( utf8bytes, iso88591charset );

    System.out.println(failString);

Выходы

Ã¢abcd

(либо это, либо вы просто записали байты utf8 в файл и прочитали их в другом месте как iso88591)

Kåre Jonsson · Answer 4 · 18 февраля 2016

Это то, что мне было нужно:

public static byte[] encode(byte[] arr, String fromCharsetName) {
    return encode(arr, Charset.forName(fromCharsetName), Charset.forName("UTF-8"));
}

public static byte[] encode(byte[] arr, String fromCharsetName, String targetCharsetName) {
    return encode(arr, Charset.forName(fromCharsetName), Charset.forName(targetCharsetName));
}

public static byte[] encode(byte[] arr, Charset sourceCharset, Charset targetCharset) {

    ByteBuffer inputBuffer = ByteBuffer.wrap( arr );

    CharBuffer data = sourceCharset.decode(inputBuffer);

    ByteBuffer outputBuffer = targetCharset.encode(data);
    byte[] outputData = outputBuffer.array();

    return outputData;
}

Chadi · Answer 5 · 20 января 2015

В дополнение к ответу Адама Розенфилда я хотел бы добавить, что ByteBuffer.array() возвращает базовый байтовый массив буфера, который не обязательно «обрезается» до последнего символа. Потребуются дополнительные манипуляции, такие как упомянутые в этом ответе; в частности:

byte[] b = new byte[bb.remaining()]
bb.get(b);

Frizz1977 · Answer 6 · 20 мая 2014

Для файлов с кодировкой ...

public class FRomUtf8ToIso {
        static File input = new File("C:/Users/admin/Desktop/pippo.txt");
        static File output = new File("C:/Users/admin/Desktop/ciccio.txt");


    public static void main(String[] args) throws IOException {

        BufferedReader br = null;

        FileWriter fileWriter = new FileWriter(output);
        try {

            String sCurrentLine;

            br = new BufferedReader(new FileReader( input ));

            int i= 0;
            while ((sCurrentLine = br.readLine()) != null) {
                byte[] isoB =  encode( sCurrentLine.getBytes() );
                fileWriter.write(new String(isoB, Charset.forName("ISO-8859-15") ) );
                fileWriter.write("\n");
                System.out.println( i++ );
            }

        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                fileWriter.flush();
                fileWriter.close();
                if (br != null)br.close();
            } catch (IOException ex) {
                ex.printStackTrace();
            }
        }

    }


    static byte[] encode(byte[] arr){
        Charset utf8charset = Charset.forName("UTF-8");
        Charset iso88591charset = Charset.forName("ISO-8859-15");

        ByteBuffer inputBuffer = ByteBuffer.wrap( arr );

        // decode UTF-8
        CharBuffer data = utf8charset.decode(inputBuffer);

        // encode ISO-8559-1
        ByteBuffer outputBuffer = iso88591charset.encode(data);
        byte[] outputData = outputBuffer.array();

        return outputData;
    }

}

Paul Vargas · Answer 7 · 12 марта 2014

Если у вас правильная кодировка в строке, вам не нужно делать больше, чтобы получить байты для другой кодировки.

public static void main(String[] args) throws Exception {
    printBytes("â");
    System.out.println(
            new String(new byte[] { (byte) 0xE2 }, "ISO-8859-1"));
    System.out.println(
            new String(new byte[] { (byte) 0xC3, (byte) 0xA2 }, "UTF-8"));
}

private static void printBytes(String str) {
    System.out.println("Bytes in " + str + " with ISO-8859-1");
    for (byte b : str.getBytes(StandardCharsets.ISO_8859_1)) {
        System.out.printf("%3X", b);
    }
    System.out.println();
    System.out.println("Bytes in " + str + " with UTF-8");
    for (byte b : str.getBytes(StandardCharsets.UTF_8)) {
        System.out.printf("%3X", b);
    }
    System.out.println();
}

Выход:

Bytes in â with ISO-8859-1
 E2
Bytes in â with UTF-8
 C3 A2
â
â

bcros · Answer 8 · 30 марта 2010

исключите символы, отличные от ISO-8859-1, будут заменены на '?' (перед отправкой в БД ISO-8859-1 в качестве примера):

utf8String = новая строка (utf8String.getBytes (), "ISO-8859-1");

Преобразование UTF-8 в ISO-8859-1 в Java - как сохранить его как один байт

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Преобразование UTF-8 в ISO-8859-1 в Java - как сохранить его как один байт

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы