Будет работать таблица стилей XSLT:
ОБНОВЛЕНИЕ № 2: Я сомневаюсь, что это будет работать для вас, так как вы на самом деле используете SGML, а не XML. Выдача в том, что объявление элемента в вашем вопросе имеет минимизацию тегов, которая недопустима в XML.
ОБНОВЛЕНИЕ: изменен ввод XML и XSLT для отображения только текста в структуре <TEXT>
.
XML INPUT
<ROOT>
<IGNORE>ignore this data</IGNORE>
<TEXT>
Some text that I want to extract
<SUMMARY> Some more text </SUMMARY>
<AGENCY>
An agency
<SIGNER> Bob Smith </SIGNER>
</AGENCY>
</TEXT>
<IGNORE>ignore this data</IGNORE>
</ROOT>
XSLT
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text"/>
<xsl:template match="/">
<xsl:value-of select="normalize-space(/ROOT/TEXT)"/>
</xsl:template>
</xsl:stylesheet>
OUTPUT
Некоторый текст, который я хочу извлечь.
больше текста Агентство Боб Смит
Примечание. XSLT работает только в том случае, если TEXT является дочерним элементом ROOT. Если TEXT может быть вложен более глубоко, вы можете изменить «select» на select="normalize-space(//TEXT)"
.