Разница в производительности между анализом Stax и DOM - PullRequest
4 голосов
/ 26 марта 2010

Я давно использую DOM, и поэтому производительность анализа DOM была довольно хорошей. Даже при работе с XML размером около 4-7 МБ анализ был быстрым. Проблема, с которой мы сталкиваемся при использовании DOM, - это объем памяти, который становится огромным, как только мы начинаем работать с большими XML-файлами.

В последнее время я пытался перейти на Stax (потоковые парсеры для XML), которые, как предполагается, должны быть парсерами второго поколения (читая о Stax, он сказал, что это самый быстрый парсер сейчас). Когда я попробовал парсер Stax для большого XML примерно на 4 МБ, объем памяти заметно сократился, но время, необходимое для анализа всего XML и создания из него java-объекта, увеличилось почти в 5 раз по сравнению с DOM.

Я использовал реализацию Stax в sjsxp.jar.

Я могу до некоторой степени логически вывести, что производительность может быть не очень хорошей из-за потоковой природы синтаксического анализатора, но сокращения в 5 раз (например, DOM занимает около 8 секунд для создания объекта для этого XML, тогда как анализ Stax занимал около 40 секунд в среднем) определенно не будет приемлемым.

Я что-то упускаю здесь полностью, так как не могу смириться с этими показателями производительности

Ответы [ 4 ]

6 голосов
/ 21 сентября 2010
package parsers;

/**
 *
 * @author Arthur Kushman
 */

import java.io.File;
import java.io.IOException;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;

import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.w3c.dom.Element;


public class DOMTest {

  public static void main(String[] args) {
  long time1 = System.currentTimeMillis();
   try {
    DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
    DocumentBuilder db = dbf.newDocumentBuilder();
    Document doc = db.parse(new File("/Users/macpro/Desktop/myxml.xml"));
    doc.getDocumentElement().normalize();
    // System.out.println("Root Element: "+doc.getDocumentElement().getNodeName());
    NodeList nodeList = doc.getElementsByTagName("input");
    // System.out.println("Information of all elements in input");

    for (int s=0;s<nodeList.getLength();s++) {
      Node firstNode = nodeList.item(s);
      if (firstNode.getNodeType() == Node.ELEMENT_NODE) {
        Element firstElement = (Element)firstNode;
        NodeList firstNameElementList = firstElement.getElementsByTagName("href");
        Element firstNameElement = (Element)firstNameElementList.item(0);
        NodeList firstName = firstNameElement.getChildNodes();
        System.out.println("First Name: "+((Node)firstName.item(s)).getNodeValue());        
      }
    }


   } catch (Exception ex) {
    System.out.println(ex.getMessage());
    System.exit(1);
   }
  long time2 = System.currentTimeMillis() - time1;
  System.out.println(time2);
  }

}

45 мельниц

package parsers;

/**
 *
 * @author Arthur Kushman
 */
import javax.xml.stream.*;
import java.io.*;
import javax.xml.namespace.QName;

public class StAXTest {

  public static void main(String[] args) throws Exception {
  long time1 = System.currentTimeMillis();
    XMLInputFactory factory = XMLInputFactory.newInstance();
    // factory.setXMLReporter(myXMLReporter);
    XMLStreamReader reader = factory.createXMLStreamReader(
            new FileInputStream(
            new File("/Users/macpro/Desktop/myxml.xml")));

    /*String encoding = reader.getEncoding();

    System.out.println("Encoding: "+encoding);

    while (reader.hasNext()) {
      int event = reader.next();
      if (event == XMLStreamConstants.START_ELEMENT) {
        QName element = reader.getName();
        // String text = reader.getText();
        System.out.println("Element: "+element);
        // while (event != XMLStreamConstants.END_ELEMENT) {
          System.out.println("Text: "+reader.getLocalName());
        // }
      }
    }*/

  try {
    int inElement = 0;
    for (int event = reader.next();event != XMLStreamConstants.END_DOCUMENT;
    event = reader.next()) {
      switch (event) {
        case XMLStreamConstants.START_ELEMENT:
          if (isElement(reader.getLocalName(), "href")) {
            inElement++;
          }
          break;
        case XMLStreamConstants.END_ELEMENT:
          if (isElement(reader.getLocalName(), "href")) {
            inElement--;
            if (inElement == 0) System.out.println();
          }
          break;
        case XMLStreamConstants.CHARACTERS:
          if (inElement>0) System.out.println(reader.getText());
          break;
        case XMLStreamConstants.CDATA:
          if (inElement>0)  System.out.println(reader.getText());
          break;
      }
    }
    reader.close();
  } catch (XMLStreamException ex) {
    System.out.println(ex.getMessage());
    System.exit(1);
  }
    // System.out.println(System.currentTimeMillis());
    long time2 = System.currentTimeMillis() - time1;
    System.out.println(time2);
 }

  public static boolean isElement(String name, String element) {
    if (name.equals(element)) return true;
    return false;
  }

}

23 мельницы

StAX побед =)

1 голос
/ 30 августа 2010

Хотя в вопросе отсутствуют некоторые детали, я вполне уверен, что ответ заключается в том, что в обоих случаях медленный синтаксический анализ не выполняется (DOM не является синтаксическим анализатором; DOM-деревья обычно создаются с использованием SAX или Stax синтаксических анализаторов), но код над ним, который создает объекты.

Существуют эффективные автоматические связыватели данных, включая JAXB (и с правильными настройками, XStream), которые могут помочь. Они быстрее, чем DOM, потому что основная проблема производительности с DOM (и JDOM, Dom4j и XOM) заключается в том, что древовидные модели по своей природе дороги по сравнению с POJO - они в основном прославляют HashMaps с множеством указателей для удобного нетипизированного обхода; особенно в отношении использования памяти.

Что касается синтаксических анализаторов, Woodstox является более быстрым синтаксическим анализатором Stax, чем Sjsxp; Аалто еще быстрее, если необработанная скорость имеет существенное значение. Но я сомневаюсь, что главная проблема здесь в скорости парсера.

0 голосов
/ 07 августа 2010

Попробуйте создать XML с 2000M, а затем сравните числа. Я предполагаю, что подход, основанный на DOM, будет работать быстрее на меньших данных. Stax (или любой подход, основанный на саксофоне) будет вариантом по мере увеличения данных.

(мы имеем дело с 3G или большими файлами. DOM даже не запускает приложение.)

0 голосов
/ 05 августа 2010

Классический случай скорость / обмен памяти по моему скромному мнению. Вы мало что можете сделать, кроме как попробовать SAX (или JDOM) и измерить снова.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...