Question

У меня есть вопрос относительно считывания содержимого узла с помощью xpath из нескольких файлов XML.Я полностью осознаю, что в Интернете есть масса ресурсов по этому вопросу, и, пожалуйста, поверьте мне, это действительно сводит меня с ума.Я хочу зачитать информацию из файлов экспериментального корпуса Reuters RCV1.все файлы в этом корпусе имеют одинаковую информацию.я публикую здесь структуру в качестве примера:

<?xml version="1.0" encoding="iso-8859-1" ?>
<newsitem itemid="1000000" id="root" date="xxx" xml:lang="en">
<title>title title title</title>
<headline>headline headline headline</headline>
<byline>Jack Daniels</byline>
<dateline>Blabla</dateline>
<text>
<p> Paragraph 1 Paragraph 1 Paragraph 1 Paragraph 1 Paragraph 1 </p>
<p> Paragraph 2 Paragraph 2 Paragraph 2 Paragraph 2 Paragraph 2 </p>
<p> Paragraph 3 Paragraph 3 Paragraph 3 Paragraph 3 Paragraph 3 </p>
<p> Paragraph 4 Paragraph 4 Paragraph 4 Paragraph 4 Paragraph 4 </p>
</text>
<copyright>(c) Reuters Limited 1996</copyright>
<metadata>
<codes class="bip:countries:1.0">
  <code code="MEX">
    <editdetail attribution="Reuters BIP Coding Group" action="confirmed" date="1996-02-20"/>
  </code>
</codes>
<codes class="bip:topics:1.0">
  <code code="xxx">
    <editdetail attribution="Reuters BIP Coding Group" action="confirmed" date="1996-08-20"/>
  </code>
  <code code="xxx">
    <editdetail attribution="Reuters BIP Coding Group" action="confirmed" date="xxx"/>
  </code>
  <code code="xxx">
    <editdetail attribution="Reuters BIP Coding Group" action="confirmed" date="xxx"/>
  </code>
  <code code="xxx">
    <editdetail attribution="Reuters BIP Coding Group" action="confirmed" date="xxx"/>
  </code>
  <code code="xxx">
    <editdetail attribution="Reuters BIP Coding Group" action="confirmed" date="xxx"/>
  </code>
</codes>
<dc element="dc.publisher" value="Reuters Holdings Plc"/>
<dc element="dc.date.published" value="xxx"/>
<dc element="dc.source" value="Reuters"/>
<dc element="dc.creator.location" value="xxx"/>
<dc element="dc.creator.location.country.name" value="xxx"/>
<dc element="dc.source" value="Reuters"/>
</metadata>
</newsitem>

Конечная цель моей задачи - перенести эти несколько тысяч файлов в CSV.Я делаю это с помощью программного средства quickminer, обращаясь к разному содержимому узла по адресу der xpath.это абсолютно не проблема для всех точек, кроме одного, содержания.с помощью // newsitem / text / p / node () он всегда доставляет только первый абзац.Однако я хотел бы извлечь весь текст из всех параграфов.это означает, что файлы csv должны выглядеть примерно так:

заголовок, заголовок, дата, текст, местоположение titleblabla, headlineblabla, xxx, абзац 1, абзац 2, абзац 3, в любом месте othertitleblabla, otherheadlineblabla, otherdatexxx, другой абзац 1 абзаца2 абзац 3, нигде

просьбы, может кто-нибудь будет так хорош, как добиться этого, указав его с помощью xpath.Я также пробовал все это с совпадениями строк, но это занимает много времени, и кроме того мне нужно избавиться от тегов XML.

очень тебя обожают,

александр (отчаянный новичок xpath / xml)

Dimitre Novatchev · Answer 1 · 22 сентября 2011

Из вашего описания видно, что RapidMiner извлекает строковое значение узла (-set), выбранного данным выражением XPath.По определению, строковое значение набора узлов - это строковое значение первого узла в этом наборе узлов - оно точно соответствует вашему описанию проблемы.

Решение :

Вместо:

//newsitem/text/p/node()

use:

/newsitem/text

Строковое значение единственного элемента, выбранного в предоставленном документе с выражением выше (по определению), является конкатенациейвсех его потомков текстовых узлов - именно то, что вы хотите.

Считать содержимое узла с помощью xpath из нескольких файлов XML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Считать содержимое узла с помощью xpath из нескольких файлов XML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов