У меня очень большой XML-файл, поэтому я использую StAX в качестве потокового парсера XML. Однако есть неэкранированные HTML-теги, с которыми я могу разобраться, как бороться. Например:
<ArticleTitle>Frequent <i>BRAF</i><sup>V600E</sup> mutation has no effect on tumor invasiveness in patients with Langerhans cell histiocytosis.</ArticleTitle>
Я не могу извлечь заголовок выше с кодом, подобным этому:
while (xmlReader.hasNext()) {
XMLEvent event = xmlReader.nextEvent();
if (event.isStartEvent() && event.asStartElement().getName().getLocalPart().equals("ArticleTitle")) {
//this throws an javax.xml.stream.XMLStreamException: ParseError at //[row,col]:[3886149,32]
//Message: elementGetText() function expects text only elment but START_ELEMENT was //encountered.
String text = xmlReader.getElementText();
}
Как мне получить символы от <ArticleTitle>
до </ArticleTitle>
?