Используйте Apache StringEscapeUtils.escapeHtml(String)
или StringEscapeUtils.unescapeHtml(String)
. Это находится в общих библиотеках.
Если вам нужно сохранить какую-либо HTML-разметку, но просто удалить любую кодировку ascii, вам придется создать карту значений, которые вы хотите экранировать. Это упражнение в String
манипулировании, поэтому его можно считать «безобразным хаком», но оно будет выполняться быстро.
Например, с некоторым псевдокодом,
Создайте Map<String, String>()
и заполните его значением, которое вы хотите заменить в качестве Ключа, и значением для его замены в Значение.
Найдите HTML-код ascii в документе с помощью регулярного выражения,
посмотрите код ascii в ваших Map
заменах
Заменить вхождение HTML-кода ascii на текстовый эквивалент.
Я выложу код на выходных, если у меня будет возможность.