Какое лучшее решение для объединения нескольких XML - PullRequest
1 голос
/ 13 февраля 2012

У меня есть таблица со столбцом Xml в Sql.Все XML-файлы имеют одну и ту же схему, и я хочу объединить некоторые из этих XML-файлов.

Например, для X1:

 <A>
     <B>
         <C id='101'>
             <D id='102'>abcd</D>
         </C>
         <C id='103'>
             <D id='104'>zxcv</D>
         </C>
     </B>
 </A>

и X2:

 <A>
     <B>
         <C id='101'>
             <D id='102'>abcd</D>
             <D id='501'>abef</D>
         </C>
         <C id='502'>
             <D id='503'>efgh</D>
         </C>
     </B>
 </A>

X1 + X2 = ...

 <A>
     <B>
         <C id='101'>
             <D id='102'>abcd</D>
             <D id='501'>abef</D>
         </C>
         <C id='103'>
             <D id='104'>zxcv</D>
         </C>            
         <C id='502'>
             <D id='503'>efgh</D>
         </C>
     </B>
 </A>

Какой выбор является лучшим и как:

  • XQuery в Sql
  • C # XDocument и XPath
  • ...

Ответы [ 2 ]

2 голосов
/ 14 февраля 2012

Я думаю, что лучший способ достичь этого - написать класс, который объединяет два XDocument с использованием шаблона посетителя , с тем отличием, что мы всегда посещаем узлы из первого документа параллельно с узлы из второго документа.

Общий дизайн будет выглядеть примерно так:

class XmlMerger
{
    public XDocument Merge(XDocument first, XDocument second);

    private XElement MergeElements(XElement first, XElement second);

    private XAttribute MergeAttributes(XAttribute first, XAttribute second);

    private XText MergeTexts(XText first, XText second);
}

Конкретная реализация может выглядеть так:

class XmlMerger
{
    public XDocument Merge(XDocument first, XDocument second)
    {
        return new XDocument(MergeElements(first.Root, second.Root));
    }

    private XElement MergeElements(XElement first, XElement second)
    {
        if (first == null)
            return second;

        if (second == null)
            return first;

        if (first.Name != second.Name)
            throw new InvalidOperationException();

        var firstId = (string)first.Attribute("id");
        var secondId = (string)second.Attribute("id");

        // different ids
        if (firstId != secondId)
            throw new InvalidOperationException();

        var result = new XElement(first.Name);

        var attributeNames = first.Attributes()
            .Concat(second.Attributes())
            .Select(a => a.Name)
            .Distinct();

        foreach (var attributeName in attributeNames)
            result.Add(
                MergeAttributes(
                    first.Attribute(attributeName),
                    second.Attribute(attributeName)));

        // text-only elements
        if (first.Nodes().OfType<XText>().Any() ||
            second.Nodes().OfType<XText>().Any())
        {
            var firstText = first.Nodes().OfType<XText>().FirstOrDefault();
            var secondText = second.Nodes().OfType<XText>().FirstOrDefault();

            // we're not handling mixed elements
            if (first.Nodes().Any(n => n != firstText) ||
                second.Nodes().Any(n => n != secondText))
                throw new InvalidOperationException();

            result.Add(MergeTexts(firstText, secondText));
        }
        else
        {
            var elementNames = first.Elements()
                .Concat(second.Elements())
                .Select(e => e.Name)
                .Distinct();

            foreach (var elementName in elementNames)
            {
                var ids = first.Elements(elementName)
                    .Concat(second.Elements(elementName))
                    .Select(e => (string)e.Attribute("id"))
                    .Distinct();

                foreach (var id in ids)
                {
                    XElement firstElement = first.Elements(elementName)
                        .SingleOrDefault(e => (string)e.Attribute("id") == id);
                    XElement secondElement = second.Elements(elementName)
                        .SingleOrDefault(e => (string)e.Attribute("id") == id);

                    result.Add(MergeElements(firstElement, secondElement));
                }
            }
        }

        return result;
    }

    private XAttribute MergeAttributes(XAttribute first, XAttribute second)
    {
        if (first == null)
            return second;

        if (second == null)
            return first;

        if (first.Name != second.Name)
            throw new InvalidOperationException();

        if (first.Value == second.Value)
            return new XAttribute(first);

        // can't merge attributes with different values
        throw new InvalidOperationException();
    }

    private XText MergeTexts(XText first, XText second)
    {
        if (first == null)
            return second;

        if (second == null)
            return first;

        if (first.Value == second.Value)
            return new XText(first);

        // can't merge texts with different values
        throw new InvalidOperationException();
    }
}

Если этот код встречает что-то, что он не может обработать (например, узлы с тем же идентификатором, но другим текстом или комментариями), он выдает исключение.

1 голос
/ 15 февраля 2012

Я бы сделал это в XQuery.Гораздо меньше кода.Пример ниже сделан с чистым XQuery 1.0.Это было бы даже намного проще с XQuery 3.0 (потому что он поддерживает группирование по) или с XQuery Scripting.

declare variable $sequence := (
   <A> 
       <B> 
           <C id='101'>
               <D id='102'>abcd</D>
           </C>
           <C id='103'>
               <D id='104'>zxcv</D>
           </C>
       </B>
   </A>
  ,
   <A> 
       <B> 
           <C id='101'>
               <D id='102'>abcd</D>
               <D id='501'>abef</D>
           </C>
           <C id='502'>
               <D id='503'>efgh</D>
           </C>
       </B>
   </A>
  );  

declare function local:merge($dsequence) {
  let $dfirst := $dsequence[1]
  let $dextended := <D cid="{$dfirst/../@id}" id="{$dfirst/@id}">{$dfirst/text()}</D>
  return
    if (count($dsequence) eq 1) then
      (: nothing to merge :)
      $dextended 
    else
      (: merging :)
      let $tomerge := local:merge(fn:subsequence($dsequence, 2)) 
      return
        if ($tomerge[@cid eq $dextended/@cid] and $tomerge[@id eq $dextended/id]) then
          $tomerge
        else
          ($tomerge, $dextended)
};

<A><B> {
  let $merged := local:merge($sequence/B/C/D)
  let $ckeys := fn:distinct-values(fn:data($merged/@cid))
  for $ckey in $ckeys
  return
  <C id="{$ckey}"> {
    for $dkey in fn:distinct-values(data($merged[@cid eq $ckey]/@id))
    let $d := ($merged[@cid eq $ckey and @id eq $dkey])[1]
    return <D id="{$d/@id}">{$d/text()}</D>
  }</C>
}
</B></A>
...