Я успешно читаю файлы Microsoft DOCX с Java, используя классы java.util.zip.Я начинаю с перевода MS XML на то, что мне нужно, используя XSLT.Поскольку я выводлю HTML, я замечаю, что XSLT правильно экранирует большинство очевидных символов без необходимости что-либо делать, например, ndash, ldquo, rdquo, egrave, eacute, uuml, auml и т. Д. Затем я использую регулярные выражения Java длявыполните дальнейшую обработку на выходе XSLT.
Моя проблема в том, что помимо французского и немецкого языков у меня также есть греческий.Греческий не экранируется XSLT, но корректно отображается в выходных данных XSLT, и если я редактирую полученный файл (с помощью eclipse или даже с помощью блокнота), греческий экран без экранирования отображается правильно.НО ...
Когда я работаю с выводом XSLT с помощью кода Java, он скремблирует греческий язык, и на любой странице, которую я сохраняю, есть обычные случайные символы, которые вы видите, если страница закодирована неправильно.
* 1006Ясно, что я не кодирую это правильно.Я пытался сделать это в UTF-8, так как все мои символы ISO-8859-1 экранированы.
Кто-нибудь может подсказать, что я могу делать неправильно?Есть ли способ убедить XSLT избежать греческих символов для меня, а также тех, которые он уже делает?