У меня есть вопрос относительно считывания содержимого узла с помощью xpath из нескольких файлов XML.Я полностью осознаю, что в Интернете есть масса ресурсов по этому вопросу, и, пожалуйста, поверьте мне, это действительно сводит меня с ума.Я хочу зачитать информацию из файлов экспериментального корпуса Reuters RCV1.все файлы в этом корпусе имеют одинаковую информацию.я публикую здесь структуру в качестве примера:
<?xml version="1.0" encoding="iso-8859-1" ?>
<newsitem itemid="1000000" id="root" date="xxx" xml:lang="en">
<title>title title title</title>
<headline>headline headline headline</headline>
<byline>Jack Daniels</byline>
<dateline>Blabla</dateline>
<text>
<p> Paragraph 1 Paragraph 1 Paragraph 1 Paragraph 1 Paragraph 1 </p>
<p> Paragraph 2 Paragraph 2 Paragraph 2 Paragraph 2 Paragraph 2 </p>
<p> Paragraph 3 Paragraph 3 Paragraph 3 Paragraph 3 Paragraph 3 </p>
<p> Paragraph 4 Paragraph 4 Paragraph 4 Paragraph 4 Paragraph 4 </p>
</text>
<copyright>(c) Reuters Limited 1996</copyright>
<metadata>
<codes class="bip:countries:1.0">
<code code="MEX">
<editdetail attribution="Reuters BIP Coding Group" action="confirmed" date="1996-02-20"/>
</code>
</codes>
<codes class="bip:topics:1.0">
<code code="xxx">
<editdetail attribution="Reuters BIP Coding Group" action="confirmed" date="1996-08-20"/>
</code>
<code code="xxx">
<editdetail attribution="Reuters BIP Coding Group" action="confirmed" date="xxx"/>
</code>
<code code="xxx">
<editdetail attribution="Reuters BIP Coding Group" action="confirmed" date="xxx"/>
</code>
<code code="xxx">
<editdetail attribution="Reuters BIP Coding Group" action="confirmed" date="xxx"/>
</code>
<code code="xxx">
<editdetail attribution="Reuters BIP Coding Group" action="confirmed" date="xxx"/>
</code>
</codes>
<dc element="dc.publisher" value="Reuters Holdings Plc"/>
<dc element="dc.date.published" value="xxx"/>
<dc element="dc.source" value="Reuters"/>
<dc element="dc.creator.location" value="xxx"/>
<dc element="dc.creator.location.country.name" value="xxx"/>
<dc element="dc.source" value="Reuters"/>
</metadata>
</newsitem>
Конечная цель моей задачи - перенести эти несколько тысяч файлов в CSV.Я делаю это с помощью программного средства quickminer, обращаясь к разному содержимому узла по адресу der xpath.это абсолютно не проблема для всех точек, кроме одного, содержания.с помощью // newsitem / text / p / node () он всегда доставляет только первый абзац.Однако я хотел бы извлечь весь текст из всех параграфов.это означает, что файлы csv должны выглядеть примерно так:
заголовок, заголовок, дата, текст, местоположение titleblabla, headlineblabla, xxx, абзац 1, абзац 2, абзац 3, в любом месте othertitleblabla, otherheadlineblabla, otherdatexxx, другой абзац 1 абзаца2 абзац 3, нигде
просьбы, может кто-нибудь будет так хорош, как добиться этого, указав его с помощью xpath.Я также пробовал все это с совпадениями строк, но это занимает много времени, и кроме того мне нужно избавиться от тегов XML.
очень тебя обожают,
александр (отчаянный новичок xpath / xml)