Пропустить десериализацию элемента и получить весь контент в виде строки при разборе XML в Java - PullRequest
0 голосов
/ 22 января 2019

У меня есть XML, как показано ниже:

<content>
  <p><b>Node:</b> Some information</p>
</content>

При десериализации этого XML я хочу получить содержимое внутри тега p в виде строки.

Например, если у меня есть класс Java, как показано ниже:

@Data
class Content {
  TextInParagraph p;
}

@Data
class TextInParagraph {
  String text;
}

У меня должно быть значение текста как "<b>Node:</b> Some information".

Есть ли способ, который я могу сделать выше, используя JAXB или анализатор XML Jackson?

Я попытался десериализовать выше в Джексоне, но получаю исключение ниже:

Expected END_ELEMENT, got event of type 1
java.io.IOException: Expected END_ELEMENT, got event of type 1

1 Ответ

0 голосов
/ 31 января 2019

К сожалению, это невозможно с jackson-dataformat-xml.

С JAXB, однако вы можете решить эту проблему с помощью DomHandler

@XmlRootElement(name = "content")
@XmlAccessorType(XmlAccessType.FIELD)
public class Content {

    @XmlAnyElement(InnerXmlHandler.class)
    private String p;
}

DomHandler

import javax.xml.bind.ValidationEventHandler;
import javax.xml.bind.annotation.DomHandler;
import javax.xml.transform.Source;
import javax.xml.transform.stream.StreamResult;
import javax.xml.transform.stream.StreamSource;
import java.io.StringReader;
import java.io.StringWriter;

public class InnerXmlHandler implements DomHandler<String, StreamResult> {

    private static final String START_TAG = "<p>";
    private static final String END_TAG = "</p>";

    private StringWriter xmlWriter = new StringWriter();

    public StreamResult createUnmarshaller(ValidationEventHandler errorHandler) {
        return new StreamResult(xmlWriter);
    }

    public String getElement(StreamResult rt) {
        String xml = rt.getWriter().toString();
        int beginIndex = xml.indexOf(START_TAG) + START_TAG.length();
        int endIndex = xml.lastIndexOf(END_TAG);
        return xml.substring(beginIndex, endIndex);
    }

    public Source marshal(String n, ValidationEventHandler errorHandler) {
        try {
            String xml = START_TAG + n.trim() + END_TAG;
            StringReader xmlReader = new StringReader(xml);
            return new StreamSource(xmlReader);
        } catch (Exception e) {
            throw new RuntimeException(e);
        }
    }
}

Это работает с предоставленным вами примером, но даже работает с вложенными тегами <p>, такими как:

<content>
  <p> This is some <ul><li>list</li></ul> and <p>nested paragraph</p></p>
</content>

Однако это работает, только если внутренний HTML / XML действителен.Следующее не будет работать и выдает исключение, такое как The element type "ul" must be terminated by the matching end-tag "</ul>".

<content>
  <p> This is some <ul>invalid xml </p>
</content>

Это из-за внутренних компонентов JAXB, которые пересекают все внутренние элементы, хотя предоставляется обработчик dom.

...