При разборе файла XML пропускаются все теги, кроме одного с Java - PullRequest
0 голосов
/ 17 апреля 2020

У меня есть один XML файл:

<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE dblp SYSTEM "dblp-2019-11-22.dtd">
<dblp>
<phdthesis mdate="2016-05-04" key="phd/dk/Heine2010">
<author>Carmen Heine</author>
<title>Modell zur Produktion von Online-Hilfen.</title>
<year>2010</year>
<school>Aarhus University</school>
<pages>1-315</pages>
<isbn>978-3-86596-263-8</isbn>
<ee>http://d-nb.info/996064095</ee>
</phdthesis><phdthesis mdate="2020-02-12" key="phd/Hoff2002">
<author>Gerd Hoff</author>
<title>Ein Verfahren zur thematisch spezialisierten Suche im Web und seine Realisierung im Prototypen HomePageSearch</title>
<year>2002</year>  ....(continue to have info about published books.)

Из этого файла я хочу экспортировать только информацию о теге "year". Я пробовал этот код:

public class Publications {
    String year1="YEAR";
    public static void main(String[] args) {
        {
            try {
                SAXParserFactory factory = SAXParserFactory.newInstance();
                SAXParser saxParser = factory.newSAXParser();
                DefaultHandler handler = new DefaultHandler() {
                    boolean year = false;

                    //parser starts parsing a specific element inside the document
                    public void startElement(String uri, String localName, String year1 , Attributes attributes) throws SAXException {
                        System.out.println("Start Element :" + year1);
                        if (year1.equalsIgnoreCase("YEAR")) {
                            year = true;
                        }

                    }

                    //parser ends parsing the specific element inside the document
                    public void endElement(String uri, String localName, String year1) throws SAXException {
                        System.out.println("End Element:" + year1);
                    }

                    //reads the text value of the currently parsed element
                    public void characters(char ch[], int start, int length) throws SAXException {
                        if (year) {
                            System.out.println("Year : " + new String(ch, start, length));
                            year = false;
                        }
                    }
                };
                saxParser.parse("dblp-2020-04-01.xml", handler);
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
}

Результаты, которые я получаю, не те, которые я ожидал получить. Он экспортирует больше деталей из всех тегов, включая тег года.

Start Element :ee
End Element:ee
End Element:phdthesis
Start Element :phdthesis
Start Element :author
End Element:author
Start Element :title
End Element:title
Start Element :year
Year : 1990
End Element:year (...)

Есть ли какие-либо предложения по коду для экспорта только деталей из тега "year"?

1 Ответ

0 голосов
/ 22 апреля 2020

Вы можете использовать Декларативное потоковое сопоставление (DSM) Библиотека анализа потока. Вы можете легко определить данные, которые вы хотите извлечь из XML

Вот пример сопоставления для вашего XML:

result:
  path: /dblp/phdthesis/year
  type: array

Java код:

DSM dsm=new DSMBuilder(new File("path/to/mapping.yaml")).setType(DSMBuilder.TYPE.XML).create();
Object result=  dsm.toObject(xmlFileContent);
// json represntation fo result
dsm.getObjectMapper().writerWithDefaultPrettyPrinter().writeValue(System.out, object);

Результат в формате JSON:

 [ "2010", "2002" ]

Рабочий пример: https://repl.it/@MehmetFatihFat3 / DSMFilterData1

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...