игнорировать некоторые теги XML в SAX - PullRequest
0 голосов
/ 16 февраля 2010

Я анализирую XML-документ, используя SAX в Java.
Я работаю с XML, который описывает исследовательские публикации в разных областях.
Среди других есть такие элементы, как «абстрактный», которые кратко описывают содержание статьи. В этом поле разрешено базовое форматирование HTML, но я не хочу, чтобы SAX представлял угрозу для тегов HTML (таких как i, b, u, sub, sup и т. Д.) Как реальных тегов XML, так и для fire strartElement () и endElement ( ) события на этих элементах.

Есть ли способ сказать SAX игнорировать некоторый предопределенный набор тегов XML и передавать их XML-код как есть методу символов ()?

1 Ответ

0 голосов
/ 16 февраля 2010

Подозреваю, нет, без работы. Возможно, я бы вставил в разные обработчики SAX, когда вы сталкиваетесь с разными элементами и выталкиваете / выталкиваете их из стека. Поэтому, когда вы сталкиваетесь с элементом <abstract>, вы вставляете новый обработчик, которому делегирует синтаксический анализатор SAX, и , который достаточно умен, чтобы обрабатывать ваши HTML-элементы так, как вам требуется. Боюсь, это не тривиальное решение.

...