Большой набор файлов XML имеет неправильную кодировку. Это должен быть utf-8, но содержание везде содержит символы латинского алфавита. Как лучше всего проанализировать этот контент?
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
Редактировать: это происходит с файлами Adobe InDesign IDML, похоже, что текст «Содержимое» имеет латиницу-1, а остальное может быть utf-8. Я предпочитаю обычный синтаксический анализ с помощью utf-8, затем перекодирую текстовые блоки Unicode в Content в utf-8, а затем повторный анализ с помощью latin-1. Что за беспорядок
ಠ_ಠ