Окончательное решение - узнать, какая кодировка использовалась для кодирования файла.Файл XML должен указывать, какую кодировку он использует в объявлении XML (например, <?xml charset="UTF-8" ?>
).Если это не так, то документ должен быть UTF-8 или UTF-16 (и разница между ними может быть обнаружена автоматически).
Ваш анализатор XML должен прозрачно обрабатывать кодировку на основе информации в файле XML.
Если вы получаете документы, которые не будут анализироваться, то, скорее всего, проблема в том, как онисоздаются в первую очередь.Вы должны отклонить их и сказать отправителю исправить кодировку.
(Обратите внимание, что любая кодировка Unicode может обрабатывать практически любой символ, который вам может понадобиться (а также огромное количество, которого вы не делаете).проблема в том, что документ не UTF-8, а не в том, что UTF-8 не может обрабатывать используемые символы).