У меня есть дополнительный вопрос к предыдущему сообщению: Как нормализовать XML при обратной сортировке доменных имен и пользовательской фильтрации
Есть несколько сотен вопросов об удалении дубликатов тегов.,Я попытался удалить дубликаты узлов на основе логики, просматривая их, но, похоже, это не сработало:
<?xml version='1.0' encoding='UTF-8' ?>
<?tapia chrome-version='2.0' ?>
<mapGeo>
<a>blah</a>
<b>blah</b>
<maps>
<mapIndividual>
<src>
<scheme>https</scheme>
<domain>photos.yahoo.com</domain>
<path>somepath</path>
<query>blah</query>
</src>
<loc>C:\var\tmp</loc>
<x>blah</x>
<y>blah</y>
</mapIndividual>
<mapIndividual>
<src>
<domain>photos.yahoo.com</domain>
<path>somepath</path>
<query>blah</query>
</src>
<loc>C:\var\tmp</loc>
<x>blah</x>
<y>blah</y>
</mapIndividual>
<mapIndividual>
<src>
<scheme>tcp</scheme>
<domain>map.google.com</domain>
<port>80</port>
<path>/value</path>
<query>blah</query>
</src>
<tgt>
<scheme>https</scheme>
<domain>map.google.com</domain>
<port>443</port>
<path>/value</path>
<query>blah</query>
</tgt>
<loc>C:\var\tmp2</loc>
<x>blah</x>
<y>blah</y>
</mapIndividual>
<mapIndividual>
<src>
<scheme>tcp</scheme>
<domain>map.google.com</domain>
<path>/value</path>
<query>blah</query>
</src>
<tgt>
<domain>map.google.com</domain>
<path>/value</path>
<query>blah</query>
</tgt>
<loc>C:\var\tmp2</loc>
<x>blah</x>
<y>blah</y>
</mapIndividual>
<mapIndividual>
<src>
<scheme>http</scheme>
<domain>*.c.b.a</domain>
<path>somepath</path>
<port>8085</port>
<query>blah</query>
</src>
<tgt>
<domain>r.q.p</domain>
<path>somepath</path>
<query>blah</query>
</tgt>
<x>blah</x>
</mapIndividual>
<mapIndividual>
<src>
<scheme>http</scheme>
<domain>d.c.b.a</domain>
<path>somepath</path>
<port>8085</port>
<query>blah</query>
</src>
<tgt>
<domain>r.q.p</domain>
<path>somepath</path>
<query>blah</query>
</tgt>
<y>blah</y>
</mapIndividual>
<maps>
</mapGeo>
Я пытался делать это разными способами, например XSLT 1.0, XSLT 2.0, но я знаю,Я делаю какую-то ошибку и не могу заставить ее работать:
Подходы, которые я пытался:
<xsl:key name="kPropertyByName" match="domain" use="text()" />
...
<xsl:template match="domain[not(generate-id() = generate-id(key('kPropertyByName', text())[1]))]"/>
<xsl:key name="property" match="mapIndividual" use="concat(generate-id(parent::*), scheme, '|', domain, '|', port, '|', path, '|', query)" />
...
<xsl:apply-templates select="mapIndividual/src[generate-id(.) = generate-id(key('property', concat(generate-id(parent::*), scheme, '|', domain, '|', port, '|', path, '|', query))[1])]" />
<xsl:for-each-group select="mapIndividual" group-by="domain">
<xsl:sequence select="."/>
</xsl:for-each-group>
У меня есть другой код, как показано ниже:
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:fo="http://www.w3.org/1999/XSL/Format" xmlns:xs="http://www.w3.org/2001/XMLSchema"
xmlns:fn="http://www.w3.org/2005/xpath-functions" xmlns:xdt="http://www.w3.org/2005/xpath-datatypes"
version="2.0">
<xsl:output method="xml" encoding="utf-8" indent="yes" />
<xsl:strip-space elements="*" />
<xsl:template match="@*|node()">
<xsl:copy>
<xsl:apply-templates select="@*|node()" />
</xsl:copy>
</xsl:template>
<!-- not working -->
<!--
<xsl:key name="kPropertyByName" match="domain" use="text()" />
<xsl:key name="property" match="src" use="concat(generate-id(parent::*), schema, '|', domain, '|', port, '|', path, '|', query)" />
-->
<xsl:template match="maps">
<xsl:copy>
<xsl:apply-templates select="*">
<xsl:sort select="src/domain" />
<xsl:sort select="src/port" />
<xsl:sort select="src/path" />
<xsl:sort select="src/query" />
</xsl:apply-templates>
</xsl:copy>
<!-- not working -->
<!--
<xsl:apply-templates select="mapIndividual/src[generate-id(.) = generate-id(key('property', concat(generate-id(parent::*), schema, '|', domain, '|', port, '|', path, '|', query))[1])]" />
-->
</xsl:template>
<!-- not working -->
<!--
<xsl:template
match="domain[
not(
generate-id() =
generate-id(key('kPropertyByName', text())[1])
)
]"/>
-->
<xsl:template match="schema[text() = '' or text() = 'http' or text() = 'https']" />
<xsl:template match="port[text() = '80' or text() = '443']" />
<xsl:template match="*[not(@*|*|comment()|processing-instruction()) and normalize-space()='']" />
</xsl:stylesheet>
Необходимо учитывать следующие пункты:
- У меня есть другая логика преобразований, и я пытаюсь добавить удаление дубликатов вместе с ней, и Донне хочу применять к выводу первого преобразования.
- Теги являются необязательными по своей природе, поэтому они могут присутствовать или не присутствовать.В приведенном выше XML первые 2
<mapIndividual>
узлы являются дубликатами, хотя <scheme>https</scheme>
присутствует только в одном месте для <domain>photos.yahoo.com</domain>
.Точно так же <mapIndividual>
с <domain>map.google.com</domain>
является дубликатом, хотя <scheme>https</scheme>
и <port>443</port>
могут присутствовать или не присутствовать. - Когда теги отсутствуют, следует учитывать значения по умолчанию для логики ключа / группировки, например,
<scheme>
может быть либо пустым тегом, пустой строкой, http или https, а тег <port>
может быть либо пустым тегом, пустой строкой, 80 или 443.
Пожалуйста, помогите и спасибозаранее!