Вы можете использовать стандартную функцию XSLT 2.0 unparsed-text()
для чтения текстового файла непосредственно в коде XSLT 2.0.
Тогда просто используйте :
replace(concat(normalize-space($text),' '),
'(.{0,60}) ',
'$1
')
Объяснение
Это сначала нормализует пробел, удаляя начальную и конечную последовательности символов только для пробелов и заменяя любую внутреннюю такую последовательность одним пробелом.
Затем результат нормализации используется в качестве первого аргумента стандартной функции XPath 2.0 replace()
.
Шаблон соответствия - это любая (максимально длинная последовательность из максимум 61 символа, заканчивающаяся пробелом.
Аргумент замены указывает, что любая такая найденная последовательность должна быть заменена строкой перед конечным пробелом, объединенной символом NL.
Вот полное решение, считывающее и форматирующее этот текст из файла C:\temp\delete\text.txt
:
Dec. 13 — As always for a presidential inaugural, security and surveillance were
extremely tight in Washington, DC, last January. But as George W. Bush prepared to
take the oath of office, security planners installed an extra layer of protection: a
prototype software system to detect a biological attack. The U.S. Department of
Defense, together with regional health and emergency-planning agencies, distributed
a special patient-query sheet to military clinics, civilian hospitals and even aid
stations along the parade route and at the inaugural balls. Software quickly
analyzed complaints of seven key symptoms — from rashes to sore throats — for
patterns that might indicate the early stages of a bio-attack. There was a brief
scare: the system noticed a surge in flulike symptoms at military clinics.
Thankfully, tests confirmed it was just that — the flu.
Код XSLT :
<xsl:stylesheet version="2.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xsl:output method="text"/>
<xsl:variable name="vText" select=
"unparsed-text('file:///c:/temp/delete/text.txt')"/>
<xsl:template match="/">
<xsl:sequence select=
"replace(concat(normalize-space($vText),' '),
'(.{0,60}) ',
'$1
')
"/>
</xsl:template>
</xsl:stylesheet>
Результатом является набор строк, каждая из которых не превышает фиксированную длину 60 :
Dec. 13 — As always for a presidential inaugural, security
and surveillance were extremely tight in Washington, DC,
last January. But as George W. Bush prepared to take the
oath of office, security planners installed an extra layer
of protection: a prototype software system to detect a
biological attack. The U.S. Department of Defense, together
with regional health and emergency-planning agencies,
distributed a special patient-query sheet to military
clinics, civilian hospitals and even aid stations along the
parade route and at the inaugural balls. Software quickly
analyzed complaints of seven key symptoms — from rashes to
sore throats — for patterns that might indicate the early
stages of a bio-attack. There was a brief scare: the system
noticed a surge in flulike symptoms at military clinics.
Thankfully, tests confirmed it was just that — the flu.
Обновление
В случае, если текст взят из файла XML, это можно сделать с минимальным изменением вышеуказанного решения:
<xsl:stylesheet version="2.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xsl:output method="text"/>
<xsl:template match="/">
<xsl:sequence select=
"replace(concat(normalize-space(text),' '),
'(.{0,60}) ',
'$1
')
"/>
</xsl:template>
</xsl:stylesheet>
Здесь я предполагаю, что весь текст находится в единственном дочернем текстовом узле верхнего элемента (с именем text
) документа XML:
<text>
Dec. 13 — As always for a presidential inaugural, security and surveillance were
extremely tight in Washington, DC, last January. But as George W. Bush prepared to
take the oath of office, security planners installed an extra layer of protection: a
prototype software system to detect a biological attack. The U.S. Department of
Defense, together with regional health and emergency-planning agencies, distributed
a special patient-query sheet to military clinics, civilian hospitals and even aid
stations along the parade route and at the inaugural balls. Software quickly
analyzed complaints of seven key symptoms — from rashes to sore throats — for
patterns that might indicate the early stages of a bio-attack. There was a brief
scare: the system noticed a surge in flulike symptoms at military clinics.
Thankfully, tests confirmed it was just that — the flu.
</text>
Когда это преобразование применяется к вышеуказанному XML-документу, получается тот же результат, что и в первом решении.