Использование группировки, чтобы собрать вместе текст, а затем проверить его - PullRequest
2 голосов
/ 03 февраля 2010

Так что в этом чудовищном экструдированном наборе текста я иногда вижу ссылки и адреса электронной почты, которые были разделены. Пример:

<p>Here is some random text with an email address 
<Link>example</Link><Link>@example.com</Link> and here 
is more random text with a url 
<Link>http://www.</Link><Link>example.com</Link> near the end of the sentence.</p>

Желаемый вывод:

<p>Here is some random text with an email address 
<email>example@example.com</email> and here is more random text 
with a url <ext-link ext-link-type="uri" xlink:href="http://www.example.com/">
http://www.example.com/</ext-link> near the end of the sentence.</p>

Пробелы между элементами не появляются, что является одним из благословений.

Я могу сказать, что мне нужно использовать xsl: for-each-group в шаблоне p, но я не совсем понимаю, как поместить объединенный текст из группы с помощью функции contains (), чтобы различать электронные письма из URL. Помощь

Ответы [ 2 ]

0 голосов
/ 04 февраля 2010

Если вы используете смежную с группой группу, то вы можете просто присоединить строку к текущей группе (), как в

<xsl:stylesheet
  xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  xmlns:xlink="http://www.w3.org/1999/xlink"
  xmlns:xsd="http://www.w3.org/2001/XMLSchema"
  exclude-result-prefixes="xsd"
  version="2.0">

  <xsl:template match="p">
    <xsl:copy>
      <xsl:for-each-group select="node()" group-adjacent="boolean(self::Link)">
        <xsl:choose>
          <xsl:when test="current-grouping-key()">
            <xsl:variable name="link-text" as="xsd:string" select="string-join(current-group(), '')"/>
            <xsl:choose>
              <xsl:when test="matches($link-text, '^https?://')">
                <ext-link ext-link-type="uri" xlink:href="{$link-text}">
                  <xsl:value-of select="$link-text"/>
                </ext-link>
              </xsl:when>
              <xsl:otherwise>
                <email><xsl:value-of select="$link-text"/></email>
              </xsl:otherwise>
            </xsl:choose>
          </xsl:when>
          <xsl:otherwise>
            <xsl:apply-templates select="current-group()"/>
          </xsl:otherwise>
        </xsl:choose>
      </xsl:for-each-group>
    </xsl:copy>
  </xsl:template>

</xsl:stylesheet>
0 голосов
/ 03 февраля 2010

Вот решение XSLT 1.0, основанное на шаблоне идентификации, со специальной обработкой для <Link> элементов.

<xsl:template match="node()|@*">
  <xsl:copy>
    <xsl:apply-templates select="node()|@*" />
  </xsl:copy>
</xsl:template>

<xsl:template match="Link">
  <xsl:if test="not(preceding-sibling::node()[1][self::Link])">
    <xsl:variable name="link">
      <xsl:copy-of select="
        text()
        | 
        following-sibling::Link[
          preceding-sibling::node()[1][self::Link]
          and
          generate-id(current())
          =
          generate-id(
            preceding-sibling::Link[
              not(preceding-sibling::node()[1][self::Link])
            ][1]
          )
        ]/text()
      " />
    </xsl:variable>
    <xsl:choose>
      <xsl:when test="contains($link, '://')">
        <ext-link ext-link-type="uri" xlink:href="{$link}" />
      </xsl:when>
      <xsl:when test="contains($link, '@')">
        <email>
          <xsl:value-of select="$link" />
        </email>
      </xsl:when>
      <xsl:otherwise>
        <link type="unknown">
          <xsl:value-of select="$link" />
        </link>
      </xsl:otherwise>
    </xsl:choose>
  </xsl:if>
</xsl:template>

Я знаю, что используемые выражения XPath - довольно странные монстры, но выбрать соседних братьев и сестер нелегко в XPath 1.0 (если у кого-то есть идея, как это сделать в XPath 1.0, продолжайте и скажите мне). *

not(preceding-sibling::node()[1][self::Link])

означает, что «непосредственно предшествующий узел не должен быть <Link>», например, только <Link> элементов, которые «первыми в ряду».

following-sibling::Link[
  preceding-sibling::node()[1][self::Link]
  and
  generate-id(current())
  =
  generate-id(
    preceding-sibling::Link[
      not(preceding-sibling::node()[1][self::Link])
    ][1]
  )
]

означает

  • из всех следующих братьев и сестер <Link> s, выберите те, которые
    • сразу же следует за <Link> (например, они не "первыми в ряду") и
    • идентификатор узла current() (всегда <Link>, который "первый в ряду") должен быть равен:
    • ближайший предшествующий <Link>, который сам является "первым в ряду"

Если это имеет смысл.

Применительно к вашему вводу я получаю:

<p>Here is some random text with an email address
<email>example@example.com</email> and here
is more random text with a url
<ext-link ext-link-type="uri" xlink:href="http://www.example.com" /> near the end of the sentence.</p>
...