Нужна помощь, чтобы преобразовать следующий HTML в CSV с метатегами HTML - PullRequest
0 голосов
/ 27 апреля 2011
<html>
<head>
<title>My Headline</title>
<meta name="targetUrl" value="xyz.html?sym=abc"/>
<meta name="summary" value="A & B"/>
</head>
<body>
abc abc, pqr, xyz, rst tsd, prrrr, qqqqqqq, oooooo, opop opop, rtrttrt rtrtrtrt
</body>
</html>

Тег body должен быть изменен на csv, поэтому выходные данные должны быть такими:

abc abc, pqr, xyz, первый tsd, prrrr, qqqqqqq, oooooo, opop opop, rtrttrt rtrtrtrt

если я попробую @ решение Джима

Исключение при синтаксическом анализе происходит для мета-тегов, так как они имеют специальные символы

1 Ответ

0 голосов
/ 27 апреля 2011

Вот решение XSLT1

<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
  <xsl:output method="text"/>
  <xsl:template match="@*|node()"><xsl:apply-templates select="@*|node()"/></xsl:template>
  <xsl:template match="body"><xsl:value-of select="text()"/></xsl:template>
</xsl:stylesheet>

Обратите внимание, что поскольку ваш ввод содержит новую строку до и после данных, он также будет записан в вывод, что приведет к пустой первой и последней строке.

...