Проблема имени файла в кодировке Java - PullRequest
6 голосов
/ 30 сентября 2010

Пытаясь открыть файл, он утверждает, что его невозможно найти из-за несоответствия кодировки, когда имена файлов имеют ударения.Я работаю с использованием UTF-8 в системе Linux (/ etc / locales также устанавливает UTF-8).Запуск jboss с -Dfile.encoding = UTF-8 и переменной среды JBOSS_ENCODING = "UTF-8"

С JSP я получаю имя файла:

String fileName = element.getChildText("FileName");
out.println("File to be opened : " + filename);

Отображается:

Файл, который нужно открыть: aaaaaà.txt

Но новый файл (fileName) не будет работать.Просто file.exists () ложно.

Попытка:

File[] files = dir.listFiles();
for (int i=0; i<files.length; i++){
      out.println(fileName);

Я получаю: aaaaaà .txt

Почему он читает и пытается открыть файл, принимаяфайла в HDD как ISO-8859-1?Это конфиг JBoss?Конфигурация Java?Как я могу заставить java.io.File прочитать файл, используя UTF-8 в качестве кодировки имени файла?

Я использовал другие инструменты, и имя всегда читается нормально, используя UTF-8..

(обратите внимание, я всегда говорю о названии файла, а не о содержимом, это может быть пустой файл)

Ответы [ 2 ]

3 голосов
/ 01 октября 2010

Я пытаюсь отследить проблему.Вот что у меня уже есть:

Есть Exists.java:

import java.io.*;

public class Exists {
  public static void main(String[] args) {
    new File("aaa").exists();
    new File("aaa\u00E4").exists();
    new File("aaa\u00C3\u00A4").exists();
  }
}

И есть java -version:

java version "1.6.0_20"
Java(TM) SE Runtime Environment (build 1.6.0_20-b02)
Java HotSpot(TM) 64-Bit Server VM (build 16.3-b01, mixed mode)

Теперь по интересной части:

$ strace -f -o strace.out java Exists && grep 'stat("aaa' strace.out
31942 stat("aaa", 0x41464950)           = -1 ENOENT (No such file or directory)
31942 stat("aaa\303\244", 0x41464950)   = -1 ENOENT (No such file or directory)
31942 stat("aaa\303\203\302\244", 0x41464950) = -1 ENOENT (No such file or directory)

Приятно то, что strace работает на уровне байтов, а не на уровне символов, как Java.Так что в этом случае все нормально.У меня переменная окружения LANG установлена ​​на en_US.UTF-8, все переменные LC_* не установлены.

Теперь отслеживание проблемы до минимального рабочего примера:

$ strace -f -o strace.out env - LC_ALL=en_US.UTF-8 /home/roland/bin/java Exists && grep 'stat("aaa' strace.out
31968 stat("aaa", 0x41a75950)           = -1 ENOENT (No such file or directory)
31968 stat("aaa\303\244", 0x41a75950)   = -1 ENOENT (No such file or directory)
31968 stat("aaa\303\203\302\244", 0x41a75950) = -1 ENOENT (No such file or directory)

Это все еще работает.Итак, давайте попробуем другую кодировку:

$ strace -f -o strace.out env - LANG=en_US.ISO-8859-1 /home/roland/bin/java Exists && grep 'stat("aaa' strace.out
32070 stat("aaa", 0x407a3950)           = -1 ENOENT (No such file or directory)
32070 stat("aaa?", 0x407a3950)          = -1 ENOENT (No such file or directory)
32070 stat("aaa??", 0x407a3950)         = -1 ENOENT (No such file or directory)

Так что это не работает.Одной из возможных причин может быть то, что я выбрал локаль, которой нет в списке, напечатанном locale -a.Но это не должно быть причиной того, что Java преобразует буквы в вопросительные знаки.

Как только LANG указывает на несуществующий языковой стандарт, настройка свойства sun.jnu.encoding не оказывает никакого влияния.больше.Так что у меня сейчас нет идей.

1 голос
/ 30 сентября 2010
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...