Как добавить UTF-8 BOM в Java - PullRequest
       56

Как добавить UTF-8 BOM в Java

18 голосов
/ 08 декабря 2010

У меня есть хранимая процедура Java, которая выбирает запись из таблицы с помощью объекта Resultset и создает файл csv.

BLOB retBLOB = BLOB.createTemporary(conn, true, BLOB.DURATION_SESSION);
retBLOB.open(BLOB.MODE_READWRITE);
OutputStream bOut = retBLOB.setBinaryStream(0L);
ZipOutputStream zipOut = new ZipOutputStream(bOut);
PrintStream out = new PrintStream(zipOut,false,"UTF-8");
out.write('\ufeff');
out.flush();
zipOut.putNextEntry(new ZipEntry("filename.csv"));
while (rs.next()){
    out.print("\"" + rs.getString(i) + "\"");
    out.print(",");
}
out.flush();
zipOut.closeEntry();
zipOut.close();
retBLOB.close();
return retBLOB;

Но сгенерированный CSV-файл не показывает правильный немецкий символ. База данных Oracle также имеет значение NLS_CHARACTERSET UTF8.

Пожалуйста, предложите.

Ответы [ 5 ]

58 голосов
/ 14 ноября 2011
BufferedWriter out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(...), StandardCharsets.UTF_8));
out.write('\ufeff');
out.write(...);

Это правильно записывает 0xEF 0xBB 0xBF в файл, который является представлением UTF-8 спецификации.

9 голосов
/ 08 декабря 2010

Чтобы записать спецификацию в UTF-8, вам нужно PrintStream.print(), а не PrintStream.write().

Также, если вы хотите, чтобы спецификация была в вашем файле csv, я думаю, вам нужно напечатать спецификациюпосле putNextEntry().

7 голосов
/ 30 марта 2016

На случай, если люди используют PrintStream s, вам нужно сделать это немного по-другому. * * * * * * * * * * * * * * * * * * * * * * * * Writer * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *}}} * * * * * * * * * *}} в то время как *1004* будет использовать магию для преобразования одного байта в 3 байта; для PrintStream требуются все 3 байта спецификации UTF-8:

    // Print utf-8 BOM
    PrintStream out = System.out;
    out.write('\ufeef'); // emits 0xef
    out.write('\ufebb'); // emits 0xbb
    out.write('\ufebf'); // emits 0xbf

В качестве альтернативы, вы можете использовать шестнадцатеричные значения непосредственно для них:

    PrintStream out = System.out;
    out.write(0xef); // emits 0xef
    out.write(0xbb); // emits 0xbb
    out.write(0xbf); // emits 0xbf
7 голосов
/ 08 декабря 2010

Я думаю, что out.write('\ufeff'); на самом деле должно быть out.print('\ufeff');.

Согласно javadoc , метод write(int) фактически записывает байт ... без какой-либо кодировки символов. Так out.write('\ufeff'); записывает байт 0xff. В отличие от этого, метод print(char) кодирует символ как один или байты с использованием кодировки потока, а затем записывает эти байты.

0 голосов
/ 19 декабря 2013

В моем случае это работает с кодом:

PrintWriter out = new PrintWriter(new File(filePath), "UTF-8");
out.write(csvContent);
out.flush();
out.close();
...