JTidy неправильно обрабатывает некоторые символы - PullRequest
1 голос
/ 16 апреля 2019

Некоторые персонажи становятся поврежденными после того, как я вызываю Tidy.parse.Два примера: «вместо» и ∼ вместо ~

Я предполагаю, что они должны быть из Word или чего-то подобного, но приборка справляется с ними очень плохо.В частности, он преобразует их в их индивидуальные представления сущностей для диакритических знаков, которые затем преобразуются в бессмысленный мусор позже в моем процессе.Я уверен, что есть и другие, но это те, которые я нашел до сих пор.Есть ли какой-нибудь известный способ конвертировать их перед рукой или игнорировать их как часть аккуратности?

        Tidy tidy = new Tidy();
        tidy.setXHTML(true);
        tidy.setForceOutput(true);
        tidy.parse(inputStream, outputStream);

1 Ответ

1 голос
/ 16 апреля 2019

После распечатки конфигурации я мог видеть, что кодировки ввода и вывода не были установлены в UTF-8, как я думал, поэтому мне просто нужно было добавить это:

tidy.setInputEncoding("UTF-8");
tidy.setOutputEncoding("UTF-8");
...