Я анализирую XML-документы. Я делаю getTextContent()
, чтобы получить текст из определенного раздела, который я хочу. Текст, который я получаю, имеет теги типа
<italic> </italic>
<sub> </sub>
.. и еще немного. Я хочу удалить эти теги и просто сохранить текст независимо от того, что это за теги.
Мой документ выглядит так
<article>
<sec>Section 1</sec>
<sec>Section 2
<title>Title1</title>
<sec>
<title>Subtitle1</title>
<p>........<italic> </italic>...</p>
</sec>
<sec>
<title>Subtitle2</title>
<p>........<sub> </sub>...</p>
</sec>
</sec>
</article>
Мне нужен весь текст в <p>...</p>
без тегов.
Как я могу пойти об этом? Я думал об идентификации всех тегов и замене его на ""
. Но должен быть лучший путь.
Спасибо