Поскольку это HTML-объекты, вам нужен какой-то библиотечный метод, который преобразует их в символы, которые они представляют.
Например, у Apache Commons StringEscapeUtils.unescapeHtml
, и я уверен, что есть много других.
Если вы действительно хотите что-то свернуть самостоятельно, для этого конкретного случая вы можете разбить числа между &#
и ;
, проанализировать их как шестнадцатеричное int и вызвать Character.toChars
, чтобы преобразовать их в символы Java. Тем не менее, это займет больше работы и будет содержать больше ошибок, чем использование библиотеки, и я уверен, что в спецификации есть крайние случаи, которые я подчеркиваю.
Либо должен дать результат
ᘃᘆᕸ ᘂᖃ ᖃᖂᘄᕸ ᕶᕵᘄᘁᖓᘄ ᘁᘐ ᘅᘃᕵᘆ ᕰᖂᖅ ᘅᘆ
(Кстати, я думаю, вы должны быть более конкретными о том, что вы подразумеваете под «читаемым форматом». Я могу прочитать эту строку прямо сейчас - это последовательность ссылок на сущности. разработчик, будь точен!)