Удаление списков лиц с помощью составного ключа - PullRequest
0 голосов
/ 12 марта 2019

У меня есть список лиц (10.000) с дубликатами. Я хочу проверить, существует ли человек уже на основе имени, фамилии и года рождения или года смерти. В этом случае он должен написать дубликат внутри первого вхождения и удалить другую запись.

Мой XML:

<?xml version="1.0" encoding="UTF-8"?>
<listperson>
    <person>
        <persName>
            <surname>Shakespeare</surname>
            <forename>William</forename>
        </persName>
        <birth>
            <date>1564-04</date>
        </birth>
        <death>
            <date>1616-05-03</date>
        </death>
    </person>
    <person>
        <persName>
            <surname>Plato</surname>
            <forename/>
        </persName>
        <birth>
            <date>-0427</date>
        </birth>
        <death>
            <date>-0347</date>
            <placeName/>
        </death>
    </person>
    <person>
        <persName>
            <surname>Shakespeare</surname>
            <forename>William</forename>
        </persName>
        <birth>
            <date>1564</date>
        </birth>
        <death>
            <date>1616-05-03</date>
        </death>
    </person>
    <person>
        <persName>
            <surname>Tolstoi</surname>
            <forename>Leo N.</forename>
        </persName>
        <birth>
            <date>1828-09-28</date>
        </birth>
        <death>
            <date>1910-11-07</date>
        </death>
    </person>
    <person>
        <persName>
            <surname>Tolstoi</surname>
            <forename>Leo N.</forename>
        </persName>
        <death>
            <date>1910-11-20</date>
        </death>
    </person>
</listperson>

Теперь XSLT. Примечание. Я могу использовать XSLT 3. Мне не удалось правильно написать условие. Это мой XSLT:

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
    xmlns:xs="http://www.w3.org/2001/XMLSchema"
    exclude-result-prefixes="xs" version="3.0">
    <xsl:mode on-no-match="shallow-copy"/>

    <xsl:key name="key-birth" composite="yes" match="person"
        use="persName/surname, persName/forename, substring(birth/date, 1, 4)"/>

    <xsl:key name="key-death" composite="yes" match="person"
        use="persName/surname, persName/forename, substring(death/date, 1, 4)"/>


    <xsl:template
        match="XXXX">
        <xsl:choose>
            <xsl:when
                test="XXXX forename+surname+year of birth">
                <xsl:copy>
                    <xsl:apply-templates select="@* | node()"/>
                    <xsl:element name="duplicate">
                        <xsl:apply-templates select="XXXX"/>
                    </xsl:element>
                </xsl:copy>
            </xsl:when>
            <xsl:when
                test="XXXX forename+surname+year of death">
                <xsl:copy>
                    <xsl:apply-templates select="@* | node()"/>
                    <xsl:element name="duplicate">
                        <xsl:apply-templates select="XXXX"/>
                    </xsl:element>
                </xsl:copy>
            </xsl:when>
            <xsl:otherwise>
                <xsl:copy>
                    <xsl:apply-templates select="@* | node()"/>
                </xsl:copy>
            </xsl:otherwise>
        </xsl:choose>
    </xsl:template>

Мне удалось достичь некоторых результатов раньше с использованием follow-sibling :: и previous-sibling ::, но это медленно и дало некоторые странные результаты, поэтому я надеюсь, что кто-то здесь может указать мне на решение с ключами, возможно, с помощью generate -id ()

Вывод, конечно, должен переместить дубликаты Шекспира и Толстого в первое вхождение. На следующем шаге я объединю их и проверим различия, например дата смерти Толстого различна в двух записях.

1 Ответ

2 голосов
/ 12 марта 2019

Вы уже используете <xsl:mode on-no-match="shallow-copy"/> для копирования существующих узлов, поэтому вместо того, чтобы думать о копировании отдельных значений, вам следует подумать об исключении дубликатов из копирования.Один из способов сделать это - использовать шаблоны, чтобы игнорировать их.Например, чтобы игнорировать дубликаты на основе даты рождения, сделайте это.

<xsl:template match="person[. except key('key-birth', (persName/surname, persName/forename, substring(birth/date, 1, 4)))[1]]" />

Попробуйте это XSLT

<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
    xmlns:xs="http://www.w3.org/2001/XMLSchema"
    exclude-result-prefixes="xs" version="3.0">
    <xsl:mode on-no-match="shallow-copy"/>

    <xsl:key name="key-birth" composite="yes" match="person"
        use="persName/surname, persName/forename, substring(birth/date, 1, 4)"/>

    <xsl:key name="key-death" composite="yes" match="person"
        use="persName/surname, persName/forename, substring(death/date, 1, 4)"/>

    <xsl:template match="person[. except key('key-birth', (persName/surname, persName/forename, substring(birth/date, 1, 4)))[1]]" />

    <xsl:template match="person[. except key('key-death', (persName/surname, persName/forename, substring(death/date, 1, 4)))[1]]" />
</xsl:stylesheet>

РЕДАКТИРОВАТЬ: Если вы хотите добавить узел duplicates к отдельному человекуоставшиеся элементы, добавьте этот шаблон в XSLT

<xsl:template match="person">
  <xsl:copy>
    <xsl:apply-templates select="@*|node()" />
    <duplicates>
      <xsl:copy-of select="key('key-birth', (persName/surname, persName/forename, substring(birth/date, 1, 4))) except .|key('key-death', (persName/surname, persName/forename, substring(death/date, 1, 4))) except ." />
    </duplicates>
  </xsl:copy>
</xsl:template>

Смотрите его в действии здесь: http://xsltfiddle.liberty -development.net / 6r5Gh31

...