Question

Я использую следующий код для сохранения китайских символов в файл .txt, но когда я открыл его с помощью Wordpad, я не смог его прочитать.

StringBuffer Shanghai_StrBuf = new StringBuffer("\u4E0A\u6D77");
boolean Append = true;

FileOutputStream fos;
fos = new FileOutputStream(FileName, Append);
for (int i = 0;i < Shanghai_StrBuf.length(); i++) {
    fos.write(Shanghai_StrBuf.charAt(i));
}
fos.close();

Что я могу сделать? Я знаю, если я вырезал и вставлял китайские иероглифы в Wordpad, я могу сохранить их в текстовом файле .txt. Как мне это сделать на Java?

McDowell · Answer 1 · 20 апреля 2009

Здесь работают несколько факторов:

Текстовые файлы не имеют внутренних метаданных для описания их кодировки (несмотря на все разговоры о налогах на угловые скобки, есть причины, по которым XML популярен)
Кодировкой по умолчанию для Windows по-прежнему является 8-битный (или двухбайтовый) набор символов " ANSI " с ограниченным диапазоном значений - текстовые файлы, записанные в этом формате, не являются переносимыми
Чтобы отличить Unicode-файл от ANSI-файла, приложения Windows полагаются на наличие метки порядка байтов в начале файла ( не совсем верно, - объясняет Рэймонд Чен ). Теоретически, спецификация предназначена для того, чтобы сообщить вам endianess (порядок байтов) данных. Для UTF-8, несмотря на то, что порядок байтов только один, приложения Windows полагаются на байты маркера, чтобы автоматически выяснить, что это Unicode (хотя вы заметите, что Notepad имеет опцию кодирования в своих диалогах открытия / сохранения).
Неправильно говорить, что Java не работает, потому что она не записывает спецификацию UTF-8 автоматически. Например, в системах Unix было бы ошибкой записывать спецификацию в файл сценария, и многие системы Unix используют UTF-8 в качестве кодировки по умолчанию. Временами вы не хотите этого в Windows, например, когда вы добавляете данные в существующий файл: fos = new FileOutputStream(FileName,Append);

Вот метод надежного добавления данных UTF-8 в файл:

  private static void writeUtf8ToFile(File file, boolean append, String data)
      throws IOException {
    boolean skipBOM = append && file.isFile() && (file.length() > 0);
    Closer res = new Closer();
    try {
      OutputStream out = res.using(new FileOutputStream(file, append));
      Writer writer = res.using(new OutputStreamWriter(out, Charset
          .forName("UTF-8")));
      if (!skipBOM) {
        writer.write('\uFEFF');
      }
      writer.write(data);
    } finally {
      res.close();
    }
  }

Использование:

  public static void main(String[] args) throws IOException {
    String chinese = "\u4E0A\u6D77";
    boolean append = true;
    writeUtf8ToFile(new File("chinese.txt"), append, chinese);
  }

Примечание: если файл уже существует, и вы решили добавить и существующие данные не были в кодировке UTF-8, единственное, что создаст код, - это беспорядок.

Вот тип Closer, используемый в этом коде:

public class Closer implements Closeable {
  private Closeable closeable;

  public <T extends Closeable> T using(T t) {
    closeable = t;
    return t;
  }

  @Override public void close() throws IOException {
    if (closeable != null) {
      closeable.close();
    }
  }
}

Этот код делает предположение в стиле Windows о том, как читать файл на основе меток порядка следования байтов:

  private static final Charset[] UTF_ENCODINGS = { Charset.forName("UTF-8"),
      Charset.forName("UTF-16LE"), Charset.forName("UTF-16BE") };

  private static Charset getEncoding(InputStream in) throws IOException {
    charsetLoop: for (Charset encodings : UTF_ENCODINGS) {
      byte[] bom = "\uFEFF".getBytes(encodings);
      in.mark(bom.length);
      for (byte b : bom) {
        if ((0xFF & b) != in.read()) {
          in.reset();
          continue charsetLoop;
        }
      }
      return encodings;
    }
    return Charset.defaultCharset();
  }

  private static String readText(File file) throws IOException {
    Closer res = new Closer();
    try {
      InputStream in = res.using(new FileInputStream(file));
      InputStream bin = res.using(new BufferedInputStream(in));
      Reader reader = res.using(new InputStreamReader(bin, getEncoding(bin)));
      StringBuilder out = new StringBuilder();
      for (int ch = reader.read(); ch != -1; ch = reader.read())
        out.append((char) ch);
      return out.toString();
    } finally {
      res.close();
    }
  }

Использование:

  public static void main(String[] args) throws IOException {
    System.out.println(readText(new File("chinese.txt")));
  }

(System.out использует кодировку по умолчанию, поэтому то, печатает ли она что-либо разумное, зависит от вашей платформы и конфигурации .)

Kornel · Answer 2 · 20 апреля 2009

Это напоминает мне:

Абсолютный минимум Каждый разработчик программного обеспечения Абсолютно, положительно должен знать о Unicode и наборах символов (без оправданий!)

Esko Luontola · Answer 3 · 20 апреля 2009

Если вы можете полагаться, что кодировка символов по умолчанию - UTF-8 (или какая-либо другая кодировка Unicode), вы можете использовать следующее:

    Writer w = new FileWriter("test.txt");
    w.append("上海");
    w.close();

Самый безопасный способ - всегда явно указывать кодировку:

    Writer w = new OutputStreamWriter(new FileOutputStream("test.txt"), "UTF-8");
    w.append("上海");
    w.close();

P.S. Вы можете использовать любые символы Юникода в исходном коде Java, даже в качестве имен методов и переменных, если параметр -encoding для javac настроен правильно. Это делает исходный код более читабельным, чем экранированная форма \uXXXX.

Jon · Answer 4 · 20 апреля 2009

Будьте очень осторожны с предлагаемыми подходами. Даже указав кодировку для файла следующим образом:

Writer w = новый OutputStreamWriter (новый FileOutputStream ("test.txt"), "UTF-8");

не будет работать, если вы работаете в операционной системе, такой как Windows. Даже установка системного свойства для file.encoding в UTF-8 не решает проблему. Это потому, что Java не может записать метку порядка байтов (BOM) для файла. Даже если вы указали кодировку при записи в файл, открытие того же файла в приложении, таком как Wordpad, будет отображать текст как мусор, потому что он не обнаружит спецификацию. Я попытался запустить примеры здесь, в Windows (с кодировкой платформы / контейнера CP1252).

Следующая ошибка существует для описания проблемы в Java:

http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=4508058

Решение на данный момент состоит в том, чтобы самостоятельно написать метку порядка следования байтов, чтобы обеспечить правильное открытие файла в других приложениях. Смотрите это для более подробной информации о спецификации:

http://mindprod.com/jgloss/bom.html

и для более правильного решения см. Следующую ссылку:

http://tripoverit.blogspot.com/2007/04/javas-utf-8-and-unicode-writing-is.html

Miguel A. Friginal · Answer 5 · 20 апреля 2009

Попробуйте это,

StringBuffer Shanghai_StrBuf=new StringBuffer("\u4E0A\u6D77");
    boolean Append=true;

    Writer out = new BufferedWriter(new OutputStreamWriter(
        new FileOutputStream(FileName,Append), "UTF8"));
    for (int i=0;i<Shanghai_StrBuf.length();i++) out.write(Shanghai_StrBuf.charAt(i));
    out.close();

Matthew Flaschen · Answer 6 · 20 апреля 2009

Вот один из многих способов. По сути, мы просто указываем, что преобразование должно быть выполнено в UTF-8 до вывода байтов в FileOutputStream:

String FileName = "output.txt";

StringBuffer Shanghai_StrBuf=new StringBuffer("\u4E0A\u6D77");
boolean Append=true;

Writer writer = new OutputStreamWriter(new FileOutputStream(FileName,Append), "UTF-8");
writer.write(Shanghai_StrBuf.toString(), 0, Shanghai_StrBuf.length());
writer.close();

Я вручную проверил это по изображениям на http://www.fileformat.info/info/unicode/char/. В будущем, пожалуйста, следуйте стандартам Java-кодирования, включая имена переменных в нижнем регистре. Это улучшает читаемость.

Как сохранить китайские иероглифы в файл с Java?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сохранить китайские иероглифы в файл с Java?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы