Question

<?xml version="1.0" encoding="UTF-16"?>
<ABC>
    <END />
    <Tables>
        <START>
            <row>
                <id>111</id>
                <name>abc</name>
                <deptId>1</deptId>
            </row>
            <row>
                <id>112</id>
                <name>abc1</name>
                <deptId>1</deptId>
            </row>
            <row>
                <id>113</id>
                <name>abc3</name>
                <deptId>1</deptId>
            </row>
            <row>
                <id>222</id>
                <name>def</name>
                <deptId>2</deptId>
            </row>
            <row>
                <id>333</id>
                <name>pqr</name>
                <deptId>2</deptId>
            </row>
            <row>
                <id>444</id>
                <name>xyz</name>
                <deptId>2</deptId>
            </row>
            <row>
                <id>555</id>
                <name>lmn</name>
                <deptId>3</deptId>
            </row>
            <row>
                <id>555</id>
                <name>lmn</name>
                <deptId>3</deptId>
            </row>
        </START>
    </Tables>
</ABC>

У меня есть XML с вышеуказанной структурой.Я должен был пролить xml на 3 xmls, основываясь на различном deptId.Я должен разделить XML на более мелкие на основе изменения значений тегов.Мой элемент deptId, значения которого были изменены после нескольких строк.Все элементы с одинаковым deptId находятся в последовательности.

Требуемый вывод: Хорошо иметь имя xml в качестве идентификатора отдела.

Первый xml будет с именем 1.xml:

<?xml version="1.0" encoding="UTF-16"?>
<ABC>
    <END />
    <Tables>
        <START>
            <row>
                <id>111</id>
                <name>abc</name>
                <deptId>1</deptId>
            </row>
            <row>
                <id>112</id>
                <name>abc1</name>
                <deptId>1</deptId>
            </row>
            <row>
                <id>113</id>
                <name>abc3</name>
                <deptId>1</deptId>
            </row>
        </START>
    </Tables>
</ABC>

Второй xml с именем 2.xml:

<?xml version="1.0" encoding="UTF-16"?>
<ABC>
    <END />
    <Tables>
        <START>
            <row>
                <id>222</id>
                <name>def</name>
                <deptId>2</deptId>
            </row>
            <row>
                <id>333</id>
                <name>pqr</name>
                <deptId>2</deptId>
            </row>
            <row>
                <id>444</id>
                <name>xyz</name>
                <deptId>2</deptId>
            </row>
        </START>
    </Tables>
</ABC>

Третий xml с именем 3.xml:

<?xml version="1.0" encoding="UTF-16"?>
<ABC>
    <END />
    <Tables>
        <START>
            <row>
                <id>113</id>
                <name>abc3</name>
                <deptId>1</deptId>
            </row>
        </START>
    </Tables>
</ABC>

Я пыталсяс опцией StAXSource, ссылаясь на пару опций Опция, которую я пробовал, ссылается на ссылки ниже

Split xml Split large xml

Вот пример кода, который был опробован.

import java.io.File;
import java.io.FileReader;

import javax.xml.stream.XMLInputFactory;
import javax.xml.stream.XMLStreamReader;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.stax.StAXSource;
import javax.xml.transform.stream.StreamResult;

public class Demo2 {

public static void main(String[] args) throws Exception {
    XMLInputFactory xif = XMLInputFactory.newInstance();
    XMLStreamReader streamReader = xif.createXMLStreamReader(new FileReader("D://SmallXmltoSplit.xml"));

    streamReader.nextTag(); // Advance to next element
    streamReader.nextTag();
    streamReader.nextTag();
    streamReader.nextTag();
    streamReader.nextTag();
    streamReader.nextTag();

    TransformerFactory tf = TransformerFactory.newInstance();
    Transformer t = tf.newTransformer();
    String deptId = null;
    File file = new File("D://test" + ".xml");
    while (streamReader.hasNext()) {
        if (streamReader.isStartElement()) {
            if (streamReader.getLocalName().equals("deptId")) {
                if (deptId == null) {
                    deptId = streamReader.getElementText();
                    file = new File("D://" + deptId + ".xml");
                    t.transform(new StAXSource(streamReader), new StreamResult(file));
                } else if (deptId != streamReader.getElementText()) {
                    file = new File("D://" + deptId + ".xml");
                    t.transform(new StAXSource(streamReader), new StreamResult(file));
                } 
            }
            t.transform(new StAXSource(streamReader), new StreamResult(file));
        }
        streamReader.next();
    }
}

}

Michael Kay · Answer 1 · 01 октября 2018

Гораздо проще сделать это с XSLT 2.0:

<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform version="2.0">
  <xsl:template match="/">
    <xsl:for-each-group select="//row" group-adjacent="deptId">
      <xsl:result-document href="{current-grouping-key()}.xml">
        <ABC>
         <END />
          <Tables>
           <START>
            <xsl:copy-of select="current-group()"/>
           </START>
          </Tables>
        </ABC>
      </xsl:result-document>
    </xsl:for-each-group>
  </xsl:template>
</xsl:transform>

Чтобы запустить это из приложения Java, вам нужно скачать Saxon, а затем вызвать его, например, с такой логикой:

    Processor proc = new Processor(false);
    XsltCompiler comp = proc.newXsltCompiler();
    XsltExecutable exp = comp.compile(new StreamSource(new File("my-stylesheet.xsl")));
    Serializer out = proc.newSerializer(new File("output.xml"));
    Xslt30Transformer trans = exp.load30();
    trans.applyTemplates(new StreamSource(new File("input.xml"), out);

Подробнее здесь: http://www.saxonica.com/documentation/index.html#!using-xsl/embedding/s9api-transformation

Joop Eggen · Answer 2 · 01 октября 2018

Показание XML должно идти на <row>, более или менее следующим образом:

    XMLInputFactory xif = XMLInputFactory.newInstance();
    // Do not use a Reader, especially not a FileReader. An InputStream leaves the
    // encoding of the XML to the XMLStreamReader.
    InputStream in = Files.newInputStream(Paths.get("D:/SmallXmltoSplit.xml"));
    XMLStreamReader streamReader = xif.createXMLStreamReader(in);
    streamReader.nextTag();

    String id = "";
    String name = "";
    String deptId = "";

    String oldDeptId = null;

// File file = new File ("D: / test" + ".xml");

    while (streamReader.hasNext()) {
        if (streamReader.isStartElement()) {
            switch (streamReader.getLocalName()) {
            case "row":
                id = "";
                name = "";
                deptId = "";
                break;
            case "id":
                id = streamReader.getElementText();
                break;
            case "name":
                name = streamReader.getElementText();
                break;
            case "deptId":
                deptId = streamReader.getElementText();
                break;
            }
        }
        if (streamReader.isEndElement()) {
            switch (streamReader.getLocalName()) {
            case "START":
                if (oldDeptId != null) {
                    saveDept();
                    //oldDeptId = deptId;
                }
                break;
            case "row":
                if (!deptId.equals(oldDeptId)) {
                    if (oldDeptId != null) {
                        saveDept();
                        oldDeptId = deptId;
                    }
                    startDept(deptId);
                }
                appendDeptRow(id, name, deptId);
                break;
            }
        }
    }

Запись может быть выполнена без преобразования;на самом деле это можно сделать в виде текста.

Я оставлю это в качестве упражнения.

FileReader и FileWriter не должны использоваться, поскольку они кодируют байты с использованием кодировки платформы по умолчанию.Класс Files имеет много хороших файловых функций.

Другая особенность здесь - это кодировка UTF-16, которая удваивает размер почти ASCII-файла.Как вы упомянули, имея большой файл, было бы лучше сохранить этот файл в UTF-8, вероятно, даже если имена на фарси, греческом, японском или болгарском языках.

Разделить xml на меньшие по изменению значений тегов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разделить xml на меньшие по изменению значений тегов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы