Удалить неидентичные дубликаты узлов (учитывая значения по умолчанию, когда теги отсутствуют) - PullRequest
0 голосов
/ 23 мая 2019

У меня есть дополнительный вопрос к предыдущему сообщению: Как нормализовать XML при обратной сортировке доменных имен и пользовательской фильтрации

Есть несколько сотен вопросов об удалении дубликатов тегов.,Я попытался удалить дубликаты узлов на основе логики, просматривая их, но, похоже, это не сработало:

<?xml version='1.0' encoding='UTF-8' ?>
<?tapia chrome-version='2.0' ?>
<mapGeo>
  <a>blah</a>
  <b>blah</b>
  <maps>
    <mapIndividual>
      <src>
        <scheme>https</scheme>
        <domain>photos.yahoo.com</domain>
        <path>somepath</path>
        <query>blah</query>
      </src>
      <loc>C:\var\tmp</loc>
      <x>blah</x>
      <y>blah</y>
    </mapIndividual>
    <mapIndividual>
      <src>
        <domain>photos.yahoo.com</domain>
        <path>somepath</path>
        <query>blah</query>
      </src>
      <loc>C:\var\tmp</loc>
      <x>blah</x>
      <y>blah</y>
    </mapIndividual>
    <mapIndividual>
      <src>
        <scheme>tcp</scheme>
        <domain>map.google.com</domain>
        <port>80</port>
        <path>/value</path>
        <query>blah</query>
      </src>
      <tgt>
        <scheme>https</scheme>
        <domain>map.google.com</domain>
        <port>443</port>
        <path>/value</path>
        <query>blah</query>
      </tgt>
      <loc>C:\var\tmp2</loc>
      <x>blah</x>
      <y>blah</y>
    </mapIndividual>
    <mapIndividual>
      <src>
        <scheme>tcp</scheme>
        <domain>map.google.com</domain>
        <path>/value</path>
        <query>blah</query>
      </src>
      <tgt>
        <domain>map.google.com</domain>
        <path>/value</path>
        <query>blah</query>
      </tgt>
      <loc>C:\var\tmp2</loc>
      <x>blah</x>
      <y>blah</y>
    </mapIndividual>
    <mapIndividual>
      <src>
        <scheme>http</scheme>
        <domain>*.c.b.a</domain>
        <path>somepath</path>
        <port>8085</port>
        <query>blah</query>
      </src>
      <tgt>
        <domain>r.q.p</domain>
        <path>somepath</path>
        <query>blah</query>
      </tgt>
      <x>blah</x>
    </mapIndividual>
    <mapIndividual>
      <src>
        <scheme>http</scheme>
        <domain>d.c.b.a</domain>
        <path>somepath</path>
        <port>8085</port>
        <query>blah</query>
      </src>
      <tgt>
        <domain>r.q.p</domain>
        <path>somepath</path>
        <query>blah</query>
      </tgt>
      <y>blah</y>
    </mapIndividual>
  <maps>
</mapGeo>

Я пытался делать это разными способами, например XSLT 1.0, XSLT 2.0, но я знаю,Я делаю какую-то ошибку и не могу заставить ее работать:

Подходы, которые я пытался:

<xsl:key name="kPropertyByName" match="domain" use="text()" />
...
<xsl:template match="domain[not(generate-id() = generate-id(key('kPropertyByName', text())[1]))]"/>
<xsl:key name="property" match="mapIndividual" use="concat(generate-id(parent::*), scheme, '|', domain, '|', port, '|', path, '|', query)" />
...
<xsl:apply-templates select="mapIndividual/src[generate-id(.) = generate-id(key('property', concat(generate-id(parent::*), scheme, '|', domain, '|', port, '|', path, '|', query))[1])]" />
<xsl:for-each-group select="mapIndividual" group-by="domain">
    <xsl:sequence select="."/>
</xsl:for-each-group>

У меня есть другой код, как показано ниже:

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
    xmlns:fo="http://www.w3.org/1999/XSL/Format" xmlns:xs="http://www.w3.org/2001/XMLSchema"
    xmlns:fn="http://www.w3.org/2005/xpath-functions" xmlns:xdt="http://www.w3.org/2005/xpath-datatypes"
    version="2.0">

    <xsl:output method="xml" encoding="utf-8" indent="yes" />
    <xsl:strip-space elements="*" />

    <xsl:template match="@*|node()">
        <xsl:copy>
            <xsl:apply-templates select="@*|node()" />
        </xsl:copy>
    </xsl:template>

<!-- not working -->
<!--
    <xsl:key name="kPropertyByName" match="domain" use="text()" />
    <xsl:key name="property" match="src" use="concat(generate-id(parent::*), schema, '|', domain, '|', port, '|', path, '|', query)" />
-->

    <xsl:template match="maps">
        <xsl:copy>
            <xsl:apply-templates select="*">
                <xsl:sort select="src/domain" />
                <xsl:sort select="src/port" />
                <xsl:sort select="src/path" />
                <xsl:sort select="src/query" />
            </xsl:apply-templates>
        </xsl:copy>
        <!-- not working -->
        <!--
        <xsl:apply-templates select="mapIndividual/src[generate-id(.) = generate-id(key('property', concat(generate-id(parent::*), schema, '|', domain, '|', port, '|', path, '|', query))[1])]" />
        -->
    </xsl:template>

<!-- not working -->
<!--
    <xsl:template
    match="domain[
             not(
               generate-id() =
               generate-id(key('kPropertyByName', text())[1])
             )
           ]"/>
-->

    <xsl:template match="schema[text() = '' or text() = 'http' or text() = 'https']" />
    <xsl:template match="port[text() = '80' or text() = '443']" />

    <xsl:template match="*[not(@*|*|comment()|processing-instruction()) and normalize-space()='']" />

</xsl:stylesheet>

Необходимо учитывать следующие пункты:

  • У меня есть другая логика преобразований, и я пытаюсь добавить удаление дубликатов вместе с ней, и Донне хочу применять к выводу первого преобразования.
  • Теги являются необязательными по своей природе, поэтому они могут присутствовать или не присутствовать.В приведенном выше XML первые 2 <mapIndividual> узлы являются дубликатами, хотя <scheme>https</scheme> присутствует только в одном месте для <domain>photos.yahoo.com</domain>.Точно так же <mapIndividual> с <domain>map.google.com</domain> является дубликатом, хотя <scheme>https</scheme> и <port>443</port> могут присутствовать или не присутствовать.
  • Когда теги отсутствуют, следует учитывать значения по умолчанию для логики ключа / группировки, например, <scheme> может быть либо пустым тегом, пустой строкой, http или https, а тег <port> может быть либо пустым тегом, пустой строкой, 80 или 443.

Пожалуйста, помогите и спасибозаранее!

1 Ответ

0 голосов
/ 23 мая 2019

Вот подход, который пропускает ввод через первый режим для удаления scheme и port на основе значений по умолчанию, описанных в вашем вопросе, а затем использует составную группировку XSLT 3 для устранения дубликатов:

<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
    xmlns:xs="http://www.w3.org/2001/XMLSchema"
    exclude-result-prefixes="#all"
    version="3.0">

  <xsl:strip-space elements="*"/>
  <xsl:output indent="yes"/>

  <xsl:mode name="default" on-no-match="shallow-copy"/>

  <xsl:template match="scheme[normalize-space() = ('http', 'https', '')]" mode="default"/>

  <xsl:template match="port[normalize-space() = ('', 80, 443)]" mode="default"/>

  <xsl:variable name="defaults-stripped">
      <xsl:apply-templates mode="default"/>
  </xsl:variable>

  <xsl:mode on-no-match="shallow-copy"/>

  <xsl:template match="/">
      <xsl:apply-templates select="$defaults-stripped/node()"/>
  </xsl:template>

  <xsl:template match="maps">
      <xsl:copy>
          <xsl:for-each-group 
            select="mapIndividual" composite="yes"
            group-by="src ! (domain, string(scheme), string(path), string(port))">
              <xsl:sequence select="."/>
          </xsl:for-each-group>
      </xsl:copy>
  </xsl:template>

</xsl:stylesheet>

https://xsltfiddle.liberty -development.net / 94rmq6E / 1

Это пример того, как к нему подойти, я не уверен, что собрал точные требования по удалению значений по умолчанию или по использованию различных дочерних или дочерних элементов для выявления дубликатов.

...