Прежде всего, вам нужно включить реальный код, поскольку «вывод всегда что-то вроде этого» не имеет смысла без объяснения того, как именно вы выводите анализируемый контент: вы можете печатать события, используя некоторую библиотеку или, возможно, используяПоток Woodstox или средство записи событий.
Второе: существует разница в XML между небольшим числом предопределенных объектов (lt
, gt
, apos
, quot
, amp
) ипроизвольные определяемые пользователем объекты, такие как nbsp
здесь.Бывшие вы можете использовать как есть, они уже определены;последние существуют, только если вы определили их в DTD.
Обработка двух групп также различна;первый всегда будет расширяться несмотря ни на что, и это в соответствии со спецификацией XML.Последний будет разрешен (если только разрешение не отключено), а затем расширен - или, если не определено, будет сгенерировано исключение.Вы также можете указать собственный распознаватель, как упомянуто в другом ответе;но это будет использоваться только для пользовательских сущностей (здесь
).
В конце также полезно объяснить не то, что вы делаете, а то, что вы пытаетесь достичь.Это поможет предложить вещи лучше, чем конкретные вопросы о том, «как мне сделать X», что, возможно, не является подходящим способом.
А что касается конфигурации Woodstox, возможно, эта запись в блоге:
https://medium.com/@cowtowncoder/configuring-woodstox-xml-parser-woodstox-specific-properties-1ce5030a5173
поможет (как и 2 других в серии) - он охватывает существующие параметры конфигурации.