Какой самый быстрый парсер XML доступен для Delphi? - PullRequest
30 голосов
/ 28 февраля 2012

У нас есть достаточно большие строки XML, которые мы в настоящее время анализируем с помощью MSXML2

Я только что попробовал использовать MSXML6 в надежде на улучшение скорости и ничего не получил!

В настоящее время мы создаем много документов DOM, и я полагаю, что при постоянном взаимодействии с MSXML2 / 6 dll

могут возникнуть некоторые накладные расходы.

Кто-нибудь знает лучший / более быстрый XML-компонент для Delphi?

Если кто-то может предложить альтернативу, и она будет быстрее, мы постараемся ее интегрировать, но это будет большая работа, поэтому, надеюсь, структура не будет слишком отличаться от используемой MSXML

Мы используем Delphi 2010

Пол

Ответы [ 5 ]

35 голосов
/ 29 февраля 2012

некоторое время назад мне пришлось сериализовать record в формат XML;Например:

 TTest = record
    a : integer;
    b : real; 
 end;

до

    <Data>
        <a type="tkInteger"><em>value</em></a>
        <b type="tkFloat"><em>value</em></b>
    </Data>

Я использовал RTTI для рекурсивной навигации по полям записи и сохранения значений в XML.Я пробовал несколько парсеров XML.Мне не нужна была модель DOM для создания xml, но она требовалась для ее загрузки.

XML содержал около 310k узлов (10-15MBytes);результаты представлены в таблице ниже, есть 6 столбцов со временем в секундах;1 - время создания узлов и записи значений2 - SaveToFile ();3 = 1 + 24 - LoadFromFile ();5 - перемещаться по узлам и читать значения6 = 4 + 5enter image description here

MSXML/Xerces/ADOM - это разные поставщики для TXMLDocument (DOMVendor)
JanXML не работает с юникодом;Я исправил некоторые ошибки и сохранил XML, но загрузка вызывает AV (или переполнение стека, я не помню);
manual - означает ручную запись XML с использованием TStringStream.

Я использовал Delphi2010, Win7x32, процессор Q8200 / 2,3 ГГц, 4 ГБ ОЗУ.

обновление: исходный код этого теста можно загрузить (сериализация записи в XML с использованием RTTI) здесь http://blog.karelia.pro/teran/files/2012/03/XMLTest.zip Все анализаторы (Omni, Native), Jan) включены (теперь количество узлов в XML составляет около 270 тыс.), Извините, в коде нет комментариев.

22 голосов
/ 13 декабря 2013

Я знаю, что это старый вопрос, но людям может показаться интересным:

Я написал новую библиотеку XML для Delphi (OXml): http://www.kluug.net/oxml.php

Он имеет прямую обработку XML (чтение + запись), SAX-анализатор, DOM и последовательный DOM-анализатор. Одним из преимуществ является то, что OXml поддерживает Delphi 6-Delphi XE5, FPC / Lazarus и C ++ Builder на всех платформах (Win, MacOSX, Linux, iOS, Android).

OXml DOM основан на записях и указателях и предлагает лучшую производительность, чем любая другая библиотека XML:

Тест чтения возвращает время, необходимое анализатору для чтения пользовательского XML DOM из файла (столбец «load») и записи значений узлов в постоянную фиктивную функцию (столбец «navigate»). Файл закодирован в UTF-8 и имеет размер около 5,6 МБ.

XML parse comparison

Тест записи возвращает время, необходимое анализатору для создания DOM (столбец «создать») и записи этого DOM в файл (столбец «сохранить»). Файл кодируется в формате UTF-8, его размер составляет около 11 МБ.

XML write comparison

+ Низкая производительность записи OmniXML (оригинал) была результатом того факта, что OmniXML не использовал буферизацию для записи. Таким образом, запись в TFileStream была очень медленной. Я обновил OmniXML и добавил поддержку буферизации. Вы можете получить последний код OmniXML из SVN.

11 голосов
/ 29 февраля 2012

Недавно у меня возникла похожая проблема, когда использование MSXML DOM-парсера оказалось слишком медленным для данной задачи. Мне пришлось анализировать довольно большие документы размером более 1 МБ, и потребление памяти DOM-анализатором было непомерно высоким. Мое решение состояло в том, чтобы вообще не использовать DOM-парсер, а использовать управляемый событиями MSXML SAX-парсер. Это оказалось намного, намного быстрее. К сожалению, модель программирования совершенно другая, но в зависимости от задачи она может стоить того. Крейг Мерфи опубликовал отличную статью о том, как использовать синтаксический анализатор MSXML SAX в Delphi: SAX, Delphi и Ex Em El

6 голосов
/ 29 февраля 2012

Однажды я написал очень простой набор тестов XML.Он обслуживает MSXML (D7 MSXML3?), Omni XML (немного устаревший) и Jedi XML (последняя стабильная версия).

Результаты теста для файла 1,52 МБ:

Загрузка файла XMLвремя MSXML: 240,20 [мс]

выбор узлов XML MSXML: 1,09 [с]

время загрузки файла XML OmniXML: 2,25 [с]

Выбор узлов XML OmniXML: 1,22 [с]

Время загрузки файла XML JclSimpleXML: 2,11 [с]

и нарушение прав доступа для выбора узлов JclSimpleXML: |

К сожалению, на самом деле у меня не так много времени, чтобы исправить выше AV, но сообщения о недостатках содержатся ниже ...

fmuMain.pas

program XmlEngines;

uses
  FastMM4,
  Forms,
  fmuMain in 'fmuMain.pas' {fmMain},
  uXmlEngines in 'uXmlEngines.pas',
  ifcXmlEngine in 'ifcXmlEngine.pas';

{$R *.res}

begin
  Application.Initialize;
  Application.Title := 'XML Engine Tester';
  Application.CreateForm(TfmMain, fmMain);
  Application.Run;
end.

fmuMain.pas

unit fmuMain;

interface

uses
  Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms,
  Dialogs, xmldom, XMLIntf, msxmldom, XMLDoc,
  //
  ifcXmlEngine, StdCtrls;

type
  TfmMain = class(TForm)
    mmoDebug: TMemo;
    dlgOpen: TOpenDialog;

    procedure FormCreate(Sender: TObject);
    procedure FormDestroy(Sender: TObject);

    procedure mmoDebugClick(Sender: TObject);

  private
    fXmlEngines: TInterfaceList;
    function Get_Engine(const aIx: Integer): IXmlEngine;

  protected
    property XmlEngine[const aIx: Integer]: IXmlEngine read Get_Engine;

    procedure Debug(const aInfo: string); // inline

  public
    procedure RegisterXmlEngine(const aEngine: IXmlEngine);

  end;

var
  fmMain: TfmMain;

implementation

{$R *.dfm}

uses
  uXmlEngines, TZTools;

{ TForm1 }

function TfmMain.Get_Engine(const aIx: Integer): IXmlEngine;
begin
  Result:= nil;
  Supports(fXmlEngines[aIx], IXmlEngine, Result)
end;

procedure TfmMain.RegisterXmlEngine(const aEngine: IXmlEngine);
var
  Ix: Integer;
begin
  if aEngine = nil then
    Exit; // WARRNING: program flow disorder

  for Ix:= 0 to Pred(fXmlEngines.Count) do
    if XmlEngine[Ix] = aEngine then
      Exit; // WARRNING: program flow disorder

  fXmlEngines.Add(aEngine)
end;

procedure TfmMain.FormCreate(Sender: TObject);
begin
  fXmlEngines:= TInterfaceList.Create();
  dlgOpen.InitialDir:= ExtractFileDir(ParamStr(0));
  RegisterXmlEngine(TMsxmlEngine.Create(Self));
  RegisterXmlEngine(TOmniXmlEngine.Create());
  RegisterXmlEngine(TJediXmlEngine.Create());
end;

procedure TfmMain.mmoDebugClick(Sender: TObject);

  procedure TestEngines(const aFilename: TFileName);

    procedure TestEngine(const aEngine: IXmlEngine);
    var
      PerfCheck: TPerfCheck;
      Ix: Integer;
    begin
      PerfCheck := TPerfCheck.Create();
      try

        PerfCheck.Init(True);
        PerfCheck.Start();
        aEngine.Load(aFilename);
        PerfCheck.Pause();
        Debug(Format(
          'XML file loading time %s: %s',
          [aEngine.Get_ID(), PerfCheck.TimeStr()]));

        if aEngine.Get_ValidNode() then
        begin
          PerfCheck.Start();
          for Ix:= 0 to 999999 do
            if aEngine.Get_ChildsCount() > 0 then
            begin

              aEngine.SelectChild(Ix mod aEngine.Get_ChildsCount());

            end
            else
              aEngine.SelectRootNode();

          PerfCheck.Pause();
          Debug(Format(
            'XML nodes selections %s: %s',
            [aEngine.Get_ID(), PerfCheck.TimeStr()]));
        end

      finally
        PerfCheck.Free();
      end
    end;

  var
    Ix: Integer;
  begin
    Debug(aFilename);
    for Ix:= 0 to Pred(fXmlEngines.Count) do
      TestEngine(XmlEngine[Ix])
  end;

var
  CursorBckp: TCursor;
begin
  if dlgOpen.Execute() then
  begin

    CursorBckp:= Cursor;
    Self.Cursor:= crHourGlass;
    mmoDebug.Cursor:= crHourGlass;
    try
      TestEngines(dlgOpen.FileName)
    finally
      Self.Cursor:= CursorBckp;
      mmoDebug.Cursor:= CursorBckp;
    end

  end
end;

procedure TfmMain.Debug(const aInfo: string);
begin
  mmoDebug.Lines.Add(aInfo)
end;

procedure TfmMain.FormDestroy(Sender: TObject);
begin
  fXmlEngines.Free()
end;

end.

ifcXmlEngine.pas

unit ifcXmlEngine;

interface

uses
  SysUtils;

type
  TFileName = SysUtils.TFileName;

  IXmlEngine = interface
    ['{AF77333B-9873-4FDE-A3B1-260C7A4D3357}']
    procedure Load(const aFilename: TFileName);
    procedure SelectRootNode();
    procedure SelectChild(const aIndex: Integer);
    procedure SelectParent();
    //
    function Get_ID(): string;
    function Get_ValidNode(): Boolean;
    function Get_ChildsCount(): Integer;
    function Get_HaveParent(): Boolean;
    //function Get_NodeName(): Boolean;
  end;

implementation

end.

uXmlEngines.pas

unit uXmlEngines;

interface

uses
  Classes,
  //
  XMLDoc, XMLIntf, OmniXml, JclSimpleXml,
  //
  ifcXmlEngine;

type
  TMsxmlEngine = class(TInterfacedObject, IXmlEngine)
  private
    fXmlDoc: XMLDoc.TXMLDocument;
    fNode: XMLIntf.IXMLNode;

  protected

  public
    constructor Create(const aOwner: TComponent);
    destructor Destroy; override;

    procedure Load(const aFilename: TFileName);
    procedure SelectRootNode();
    procedure SelectChild(const aIndex: Integer);
    procedure SelectParent();
    //
    function Get_ID(): string;
    function Get_ValidNode(): Boolean;
    function Get_ChildsCount(): Integer;
    function Get_HaveParent(): Boolean;
    //function Get_NodeName(): Boolean;

  end;

  TOmniXmlEngine = class(TInterfacedObject, IXmlEngine)
  private
    fXmlDoc: OmniXml.IXmlDocument;
    fNode: OmniXml.IXMLNode;

  protected

  public
    constructor Create;
    destructor Destroy; override;

    procedure Load(const aFilename: TFileName);
    procedure SelectRootNode();
    procedure SelectChild(const aIndex: Integer);
    procedure SelectParent();
    //
    function Get_ID(): string;
    function Get_ValidNode(): Boolean;
    function Get_ChildsCount(): Integer;
    function Get_HaveParent(): Boolean;
    //function Get_NodeName(): Boolean;

  end;

  TJediXmlEngine = class(TInterfacedObject, IXmlEngine)
  private
    fXmlDoc: TJclSimpleXML;
    fNode: TJclSimpleXMLElem;

  protected

  public
    constructor Create();
    destructor Destroy(); override;

    procedure Load(const aFilename: TFileName);
    procedure SelectRootNode();
    procedure SelectChild(const aIndex: Integer);
    procedure SelectParent();
    //
    function Get_ID(): string;
    function Get_ValidNode(): Boolean;
    function Get_ChildsCount(): Integer;
    function Get_HaveParent(): Boolean;
    //function Get_NodeName(): Boolean;

  end;

implementation

uses
  SysUtils;

{ TMsxmlEngine }

constructor TMsxmlEngine.Create(const aOwner: TComponent);
begin
  if aOwner = nil then
    raise Exception.Create('TMsxmlEngine.Create() -> invalid owner');

  inherited Create();
  fXmlDoc:= XmlDoc.TXmlDocument.Create(aOwner);
  fXmlDoc.ParseOptions:= [poPreserveWhiteSpace]
end;

destructor TMsxmlEngine.Destroy;
begin
  fXmlDoc.Free();
  inherited Destroy()
end;

function TMsxmlEngine.Get_ChildsCount: Integer;
begin
  Result:= fNode.ChildNodes.Count
end;

function TMsxmlEngine.Get_HaveParent: Boolean;
begin
  Result:= fNode.ParentNode <> nil
end;

function TMsxmlEngine.Get_ID: string;
begin
  Result:= 'MSXML'
end;

//function TMsxmlEngine.Get_NodeName: Boolean;
//begin
//  Result:= fNode.Text
//end;

function TMsxmlEngine.Get_ValidNode: Boolean;
begin
  Result:= fNode <> nil
end;

procedure TMsxmlEngine.Load(const aFilename: TFileName);
begin
  fXmlDoc.LoadFromFile(aFilename);
  SelectRootNode()
end;

procedure TMsxmlEngine.SelectChild(const aIndex: Integer);
begin
  fNode:= fNode.ChildNodes.Get(aIndex)
end;

procedure TMsxmlEngine.SelectParent;
begin
  fNode:= fNode.ParentNode
end;

procedure TMsxmlEngine.SelectRootNode;
begin
  fNode:= fXmlDoc.DocumentElement
end;

{ TOmniXmlEngine }

constructor TOmniXmlEngine.Create;
begin
  inherited Create();
  fXmlDoc:= OmniXml.TXMLDocument.Create();
  fXmlDoc.PreserveWhiteSpace:= true
end;

destructor TOmniXmlEngine.Destroy;
begin
  fXmlDoc:= nil;
  inherited Destroy()
end;

function TOmniXmlEngine.Get_ChildsCount: Integer;
begin
  Result:= fNode.ChildNodes.Length
end;

function TOmniXmlEngine.Get_HaveParent: Boolean;
begin
  Result:= fNode.ParentNode <> nil
end;

function TOmniXmlEngine.Get_ID: string;
begin
  Result:= 'OmniXML'
end;

//function TOmniXmlEngine.Get_NodeName: Boolean;
//begin
//  Result:= fNode.NodeName
//end;

function TOmniXmlEngine.Get_ValidNode: Boolean;
begin
  Result:= fNode <> nil
end;

procedure TOmniXmlEngine.Load(const aFilename: TFileName);
begin
  fXmlDoc.Load(aFilename);
  SelectRootNode()
end;

procedure TOmniXmlEngine.SelectChild(const aIndex: Integer);
begin
  fNode:= fNode.ChildNodes.Item[aIndex]
end;

procedure TOmniXmlEngine.SelectParent;
begin
  fNode:= fNode.ParentNode
end;

procedure TOmniXmlEngine.SelectRootNode;
begin
  fNode:= fXmlDoc.DocumentElement
end;

{ TJediXmlEngine }

constructor TJediXmlEngine.Create;
begin
  inherited Create();
  fXmlDoc:= TJclSimpleXML.Create();
end;

destructor TJediXmlEngine.Destroy;
begin
  fXmlDoc.Free();
  inherited Destroy()
end;

function TJediXmlEngine.Get_ChildsCount: Integer;
begin
  Result:= fNode.ChildsCount
end;

function TJediXmlEngine.Get_HaveParent: Boolean;
begin
  Result:= fNode.Parent <> nil
end;

function TJediXmlEngine.Get_ID: string;
begin
  Result:= 'JclSimpleXML';
end;

//function TJediXmlEngine.Get_NodeName: Boolean;
//begin
//  Result:= fNode.Name
//end;

function TJediXmlEngine.Get_ValidNode: Boolean;
begin
  Result:= fNode <> nil
end;

procedure TJediXmlEngine.Load(const aFilename: TFileName);
begin
  fXmlDoc.LoadFromFile(aFilename);
  SelectRootNode()
end;

procedure TJediXmlEngine.SelectChild(const aIndex: Integer);
begin
  fNode:= fNode.Items[aIndex]
end;

procedure TJediXmlEngine.SelectParent;
begin
  fNode:= fNode.Parent
end;

procedure TJediXmlEngine.SelectRootNode;
begin
  fNode:= fXmlDoc.Root
end;

end.
3 голосов
/ 29 февраля 2012

Попробуйте himXML от himitsu .

Выпускается под MPL v1.1 , GPL v3.0 или LGPL v3.0 лицензия.

Вам необходимо зарегистрироваться на Delphi-Praxis (немецкий) отлично Delphiсайт, чтобы можно было загружать:

Он имеет очень впечатляющую производительность, и в дистрибутив включены демонстрации, демонстрирующие это.Я успешно использовал его в Delphi 2007, Delphi 2010 и Delphi XE.

...