Я работал над способом разбора сотен документов для текста, которые обычно имеют атрибуты (параграф), которые разделяются на абзацы (фраза). Вот как они обычно разделяются:
Примечание: есть пространство имен :
<?xml version='1.0' encoding='UFT-8'?>
<doc xmlns="http://namespace.com/here/poems">
<properties>
<titles>
<title>Name of Work</title>
</titles>
<authors>
<author>John Smith</author>
</authors>
</properties>
<work>
<paragraph name="i1">
<phrase> Lorem ipsum dolor sit amet,<br/> consectetur adipiscing elit,<br/>sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.</phrase>
</paragraph>
<paragraph name="b1">
<phrase>A quick<br/>brown fox</phrase>
</paragraph>
<paragraph name="b2">
<phrase>Jumps over<br/>the lazy</br>dog</phrase>
</paragraph>
<paragraph name="c1">
<phrase> Lorem ipsum dolor sit amet,<br/> consectetur adipiscing elit,<br/>sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.</phrase>
</paragraph>
</work>
</doc>
Текст обычно сохраняется вместе в абзаце с именем атрибут (b1 соединяется с b2, добавляя строку до и после текста, отделяя ее от текста от отличающихся атрибутов), например, это будет желаемый результат:
Lorem ipsum dolor sit amet,
consectetur adipiscing elit,
sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
A quick
brown fox
Jumps over
the lazy
dog
Lorem ipsum dolor sit amet,
consectetur adipiscing elit,
sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
Все кратные атрибуты одного и того же типа атрибута ([b1, b2, b3, ...] [i1, i2, i3, ...] и т. Д. c) должны быть соединены вместе, разделены line.
Все они различаются по количеству и порядку атрибутов. Есть ли способ сохранить этот формат без изменений (c атрибуты вместе, строка между ними, b вместе, строка между ними и т. Д. c)? Я возился с идеей наборов как способа их объединения, но не уверен в идее.
Заранее благодарим за любую помощь или совет!