Question

Я давно использую DOM, и поэтому производительность анализа DOM была довольно хорошей. Даже при работе с XML размером около 4-7 МБ анализ был быстрым. Проблема, с которой мы сталкиваемся при использовании DOM, - это объем памяти, который становится огромным, как только мы начинаем работать с большими XML-файлами.

В последнее время я пытался перейти на Stax (потоковые парсеры для XML), которые, как предполагается, должны быть парсерами второго поколения (читая о Stax, он сказал, что это самый быстрый парсер сейчас). Когда я попробовал парсер Stax для большого XML примерно на 4 МБ, объем памяти заметно сократился, но время, необходимое для анализа всего XML и создания из него java-объекта, увеличилось почти в 5 раз по сравнению с DOM.

Я использовал реализацию Stax в sjsxp.jar.

Я могу до некоторой степени логически вывести, что производительность может быть не очень хорошей из-за потоковой природы синтаксического анализатора, но сокращения в 5 раз (например, DOM занимает около 8 секунд для создания объекта для этого XML, тогда как анализ Stax занимал около 40 секунд в среднем) определенно не будет приемлемым.

Я что-то упускаю здесь полностью, так как не могу смириться с этими показателями производительности

Arthur Kushman · Answer 1 · 21 сентября 2010

package parsers;

/**
 *
 * @author Arthur Kushman
 */

import java.io.File;
import java.io.IOException;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;

import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.w3c.dom.Element;


public class DOMTest {

  public static void main(String[] args) {
  long time1 = System.currentTimeMillis();
   try {
    DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
    DocumentBuilder db = dbf.newDocumentBuilder();
    Document doc = db.parse(new File("/Users/macpro/Desktop/myxml.xml"));
    doc.getDocumentElement().normalize();
    // System.out.println("Root Element: "+doc.getDocumentElement().getNodeName());
    NodeList nodeList = doc.getElementsByTagName("input");
    // System.out.println("Information of all elements in input");

    for (int s=0;s<nodeList.getLength();s++) {
      Node firstNode = nodeList.item(s);
      if (firstNode.getNodeType() == Node.ELEMENT_NODE) {
        Element firstElement = (Element)firstNode;
        NodeList firstNameElementList = firstElement.getElementsByTagName("href");
        Element firstNameElement = (Element)firstNameElementList.item(0);
        NodeList firstName = firstNameElement.getChildNodes();
        System.out.println("First Name: "+((Node)firstName.item(s)).getNodeValue());        
      }
    }


   } catch (Exception ex) {
    System.out.println(ex.getMessage());
    System.exit(1);
   }
  long time2 = System.currentTimeMillis() - time1;
  System.out.println(time2);
  }

}

45 мельниц

package parsers;

/**
 *
 * @author Arthur Kushman
 */
import javax.xml.stream.*;
import java.io.*;
import javax.xml.namespace.QName;

public class StAXTest {

  public static void main(String[] args) throws Exception {
  long time1 = System.currentTimeMillis();
    XMLInputFactory factory = XMLInputFactory.newInstance();
    // factory.setXMLReporter(myXMLReporter);
    XMLStreamReader reader = factory.createXMLStreamReader(
            new FileInputStream(
            new File("/Users/macpro/Desktop/myxml.xml")));

    /*String encoding = reader.getEncoding();

    System.out.println("Encoding: "+encoding);

    while (reader.hasNext()) {
      int event = reader.next();
      if (event == XMLStreamConstants.START_ELEMENT) {
        QName element = reader.getName();
        // String text = reader.getText();
        System.out.println("Element: "+element);
        // while (event != XMLStreamConstants.END_ELEMENT) {
          System.out.println("Text: "+reader.getLocalName());
        // }
      }
    }*/

  try {
    int inElement = 0;
    for (int event = reader.next();event != XMLStreamConstants.END_DOCUMENT;
    event = reader.next()) {
      switch (event) {
        case XMLStreamConstants.START_ELEMENT:
          if (isElement(reader.getLocalName(), "href")) {
            inElement++;
          }
          break;
        case XMLStreamConstants.END_ELEMENT:
          if (isElement(reader.getLocalName(), "href")) {
            inElement--;
            if (inElement == 0) System.out.println();
          }
          break;
        case XMLStreamConstants.CHARACTERS:
          if (inElement>0) System.out.println(reader.getText());
          break;
        case XMLStreamConstants.CDATA:
          if (inElement>0)  System.out.println(reader.getText());
          break;
      }
    }
    reader.close();
  } catch (XMLStreamException ex) {
    System.out.println(ex.getMessage());
    System.exit(1);
  }
    // System.out.println(System.currentTimeMillis());
    long time2 = System.currentTimeMillis() - time1;
    System.out.println(time2);
 }

  public static boolean isElement(String name, String element) {
    if (name.equals(element)) return true;
    return false;
  }

}

23 мельницы

StAX побед =)

StaxMan · Answer 2 · 30 августа 2010

Хотя в вопросе отсутствуют некоторые детали, я вполне уверен, что ответ заключается в том, что в обоих случаях медленный синтаксический анализ не выполняется (DOM не является синтаксическим анализатором; DOM-деревья обычно создаются с использованием SAX или Stax синтаксических анализаторов), но код над ним, который создает объекты.

Существуют эффективные автоматические связыватели данных, включая JAXB (и с правильными настройками, XStream), которые могут помочь. Они быстрее, чем DOM, потому что основная проблема производительности с DOM (и JDOM, Dom4j и XOM) заключается в том, что древовидные модели по своей природе дороги по сравнению с POJO - они в основном прославляют HashMaps с множеством указателей для удобного нетипизированного обхода; особенно в отношении использования памяти.

Что касается синтаксических анализаторов, Woodstox является более быстрым синтаксическим анализатором Stax, чем Sjsxp; Аалто еще быстрее, если необработанная скорость имеет существенное значение. Но я сомневаюсь, что главная проблема здесь в скорости парсера.

Jayan · Answer 3 · 07 августа 2010

Попробуйте создать XML с 2000M, а затем сравните числа. Я предполагаю, что подход, основанный на DOM, будет работать быстрее на меньших данных. Stax (или любой подход, основанный на саксофоне) будет вариантом по мере увеличения данных.

(мы имеем дело с 3G или большими файлами. DOM даже не запускает приложение.)

kazanaki · Answer 4 · 05 августа 2010

Классический случай скорость / обмен памяти по моему скромному мнению. Вы мало что можете сделать, кроме как попробовать SAX (или JDOM) и измерить снова.

Разница в производительности между анализом Stax и DOM

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

45 мельниц

23 мельницы

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разница в производительности между анализом Stax и DOM

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

45 мельниц

23 мельницы

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов