Некоторые персонажи становятся поврежденными после того, как я вызываю Tidy.parse.Два примера: «вместо» и ∼ вместо ~
Я предполагаю, что они должны быть из Word или чего-то подобного, но приборка справляется с ними очень плохо.В частности, он преобразует их в их индивидуальные представления сущностей для диакритических знаков, которые затем преобразуются в бессмысленный мусор позже в моем процессе.Я уверен, что есть и другие, но это те, которые я нашел до сих пор.Есть ли какой-нибудь известный способ конвертировать их перед рукой или игнорировать их как часть аккуратности?
Tidy tidy = new Tidy();
tidy.setXHTML(true);
tidy.setForceOutput(true);
tidy.parse(inputStream, outputStream);