У меня проблемы при обработке «определенных» символов в текстах с использованием DOM API в Java. Файлы в формате XML. В предыдущем посте мне рассказывали, какова ситуация с символом амперсанда (&) в XML (и еще несколькими символами, такими как <и>). Вот этот пост:
Специальные символы в файлах XML - обработка с использованием DOM API
Однако, что я мог сделать с другими специальными символами в данных, такими как определенные буквы на немецком и французском языках? Например, у меня есть слово «фасад» в текстовом элементе документа XML. Однако место для буквы «ç» выглядит поврежденным: когда я открываю файл с помощью редактора vim в linux, оно выглядит так: «fa ^ Zade», когда я открываю его с помощью другого редактора в виде файла .txt или .xml, место для «ç» выглядит как маленький пустой прямоугольник (или пустое пространство). Это касается немецких умлаутов и других «специальных» символов других языков. Они создают проблемы, когда я пытаюсь обработать файлы с помощью парсера XML (я получаю ошибки синтаксического анализа). Я полагаю, это какая-то проблема кодирования. В заголовке XML-файла я использую encoding = "UTF-8". Я пытался изменить его (т. Е. На «Юникод» или другие), но это не помогает.
Как я могу сделать так, чтобы эти специальные символы распознавались? Должен ли я использовать некоторые специальные кодировки?
Если бы это были всего два или три символа, которые я знал наверняка, я мог бы заменить их перед обработкой DOM API в Java так же, как я делал это с символом амперсанда (&) (я преобразовал & в &
) Однако их много, и потенциально может быть любой «специальный» символ.
Проблема связана с тем, как данные были сохранены? Например, во время сохранения должна была использоваться специальная кодировка (?), Чтобы теперь символы распознавались (?). (Я не сохранил данные сам).
Спасибо.