У вас есть кусок XML.В XML есть способ избежать разметки, поскольку иногда вам просто нужен фрагмент текста, содержащий <
или атрибут со значением "
.Экранирование выполняется с использованием ссылки на символьную сущность, которая начинается с амперсанда, за которым следует код, за которым следует точка с запятой.Вот так: <
.Это может представлять <
.
Конечно, это оставляет нас с проблемой самого усилителя.Если вам нужен именно амперсанд, а не какой-то другой символьный объект, вам придется его кодировать следующим образом: &
.
То, что у вас есть, - это XML, который не является правильно сформированным.&
указывает, что вы запускаете ссылку на символьную сущность, но затем она получает Lang
.Теперь, может быть, jsoup не составляет большой проблемы из этого.Но это потому, что это для разбора HTML, а не XML.Поскольку HTML немного более мягок, чем XML, я предполагаю, что jsoup просто заменяет то, что требуется, чтобы быть ссылкой на неизвестный символ, чем-то другим.Вероятно, символ nul
.
Поэтому убедитесь, что XML правильно сформирован.Если это невозможно, не рассматривайте это как XML, а как HTML.Если вам нужна обработка XML, изучите SAX, StAX, DOM или JAXB.