XSLT, захватить только часть строки внутри тега - PullRequest
0 голосов
/ 13 февраля 2011

хорошо, у меня есть таблица стилей xslt, которая делает большую часть того, что мне сейчас нужно, это выглядит так:

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
  <xsl:template match="//Product/Description">
    <title>
      <xsl:apply-templates/>
    </title>
  </xsl:template>
  <xsl:template match="//Product/Picture">
    <link>
      <xsl:apply-templates/>
    </link>
  </xsl:template>
  <xsl:template match="//Product/Caption">
    <description>
      <xsl:apply-templates/>
    </description>
  </xsl:template>
  <xsl:template match="Picture">
    <xsl:param name="text"/>
    <xsl:choose>
      <xsl:when test="contains($text, '&lt;')">
        <xsl:value-of select="substring-before($text, '&lt;')"/>
        <xsl:call-template name="strip-tags">
          <xsl:with-param name="text" select="substring-after($text, 'src=')"/>
        </xsl:call-template>
      </xsl:when>
      <xsl:otherwise>
        <xsl:value-of select="$text"/>
      </xsl:otherwise>
    </xsl:choose>
    <xsl:apply-templates/>
  </xsl:template>
  <xsl:template match="Caption">
    <xsl:param name="text"/>
    <xsl:choose>
      <xsl:when test="contains($text, '&lt;')">
        <xsl:value-of select="substring-before($text, '&lt;')"/>
        <xsl:call-template name="strip-tags">
          <xsl:with-param name="text" select="substring-after($text,'&gt;')"/>
        </xsl:call-template>
      </xsl:when>
      <xsl:otherwise>
        <xsl:value-of select="$text"/>
      </xsl:otherwise>
    </xsl:choose>
    <xsl:apply-templates/>
  </xsl:template>
</xsl:stylesheet>

это, вероятно, огромный недостаток, потому что я просто извлекаю текст из «сырого» вывода моего редактора xml, потому что он делает то, что мне нужно. это ставит правильные теги в нужных местах. однако теперь «strip-tag», похоже, не работает, и я попытался создать другую версию «strip-tag», которая бы удаляла все, что следует за «src =» и предшествующим «>», но, очевидно, «strip-tag» быть противоположностью того, что я пытаюсь сделать. Есть ли что-то, что делает противоположность «полоски тега»? тогда я мог бы просто заменить слово «strip-tag» на «strip-all-Кроме» или как бы оно ни называлось

EDIT:
Вот входной XML-файл:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE StoreExport SYSTEM "http://store.yahoo.com/doc/dtd/StoreExport.dtd">
<StoreExport>
  <Settings>
    <Published timestamp="1297187196"/>
    <Locale code="C" name="English" encoding="iso-8859-1"/>
    <StoreName>Cl33333</StoreName>
    <Currency>USD</Currency>
    <ShipMethods>
      <ShipMethod></ShipMethod>

    </ShipMethods>
    <PayMethods>

    </PayMethods>
  </Settings>
  <Products>  

<Product Id="agfasu">
  <Code>3616a</Code>
  <Description>Ageless Fashion Suit</Description>
  <Url>http://www.cl333333333d.com/agfasu.html</Url>
  <Thumb>&lt;img border=0 width=50 height=70 src=http://ep.y3333333333327706119506618_2144_317652924&gt;</Thumb>
  <Picture>&lt;img border=0 width=600 height=845 src=http://ep.yim3333333st-27706119506618_2144_317019111&gt;</Picture>

  <Orderable>YES</Orderable>
  <Taxable>YES</Taxable>
  <Pricing>
    <BasePrice>178.00</BasePrice>

  </Pricing>
  <Path>333333333333333om/wochsu.html">Womens Church Suits</ProductRef>
    <ProductRef Id="2454" Url="http://www.cl33333333454.html">Aussie Austine Spring/Summer 2011</ProductRef>

  </Path>
  <Availability>Usually ships the next business day.</Availability>
  <Caption>&lt;head&gt; &lt;meta content="en-us" http-equiv="Content-Language"&gt; &lt;style type="text/css"&gt; .style3 {  font-family: arial, helvetica;  font-size: medium;  font-weight: bold; } .style4 {  font-size: small; } &lt;/style&gt; &lt;/head&gt;  &lt;p&gt;&lt;strong&gt;Wholesale Women&amp;#39;s</Caption>

  <OptionLists>
    <OptionList name="Size">
      <OptionValue>8</OptionValue>
    </OptionList>
    <OptionList name="Colors">
      <OptionValue>Red</OptionValue>
    </OptionList>

    <OptionList name="Accessories">
      <OptionValue>Suit</OptionValue>
    </OptionList>

  </OptionLists>
</Product>  

вывод, который я хотел бы:

<item>
<title>
<![CDATA['DescriptionTag]]>  
</title>
<description>
<![CDATA[CaptionTagStrippedofEscapedCharacters]]>
</description>
<link>'UrlTag'</link>
<g:condition>new</g:condition>
<g:price>'BasePriceTag'</g:price>
<g:product_type>Clothing, Accessories</g:product_type>
<g:image_link>'PictureTagFrom 'src=' to '>' </g:image_link>
<g:payment_accepted>Visa</g:payment_accepted>
<g:payment_accepted>Mastercard</g:payment_accepted>
<g:payment_accepted>Discover</g:payment_accepted>
</item>  

некоторые теги не нужно заполнять из источника, но они всегда одинаковы, например, «оплата принята», «условие» и «тип продукта»

1 Ответ

0 голосов
/ 13 февраля 2011

Не следует использовать словарь XML или потребителя XML, который ожидает анализируемые данные в качестве неразобранного текстового узла

Если вы это сделаете, то вы должны столкнуться с последствиями и выполнить правильный анализ вместо какой-либо подверженной ошибкам RegExp или обработки строк.

Очень базовый XSLT-парсер для кодирования правильно сформированного XHTML находится по адресу https://bug98168.bugzilla.mozilla.org/attachment.cgi?id=434081

Таким образом, вы можете проанализировать ваши неразобранные данные, а затем применить преобразование второй фазы с функцией расширения node-set().

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...