Обработка неэкранированных HTML-тегов в XML при разборе с помощью StAX в Java - PullRequest
0 голосов
/ 28 августа 2018

У меня очень большой XML-файл, поэтому я использую StAX в качестве потокового парсера XML. Однако есть неэкранированные HTML-теги, с которыми я могу разобраться, как бороться. Например:

<ArticleTitle>Frequent <i>BRAF</i><sup>V600E</sup> mutation has no effect on tumor invasiveness in patients with Langerhans cell histiocytosis.</ArticleTitle>

Я не могу извлечь заголовок выше с кодом, подобным этому:

    while (xmlReader.hasNext()) {
    XMLEvent event = xmlReader.nextEvent();
if (event.isStartEvent() && event.asStartElement().getName().getLocalPart().equals("ArticleTitle")) {     
//this throws an javax.xml.stream.XMLStreamException: ParseError at //[row,col]:[3886149,32]
//Message: elementGetText() function expects text only elment but START_ELEMENT was //encountered.
    String text = xmlReader.getElementText();
}

Как мне получить символы от <ArticleTitle> до </ArticleTitle>?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...