Полоса тегов из текста, извлеченного из XML - PullRequest
4 голосов
/ 21 марта 2011

Я анализирую XML-документы. Я делаю getTextContent(), чтобы получить текст из определенного раздела, который я хочу. Текст, который я получаю, имеет теги типа

<italic> </italic>
<sub> </sub>

.. и еще немного. Я хочу удалить эти теги и просто сохранить текст независимо от того, что это за теги.

Мой документ выглядит так

<article>
   <sec>Section 1</sec>  
   <sec>Section 2
      <title>Title1</title>
      <sec>
         <title>Subtitle1</title>
         <p>........<italic> </italic>...</p>
      </sec>
      <sec>
         <title>Subtitle2</title>
         <p>........<sub> </sub>...</p>
      </sec>
   </sec>
</article>

Мне нужен весь текст в <p>...</p> без тегов. Как я могу пойти об этом? Я думал об идентификации всех тегов и замене его на "". Но должен быть лучший путь.

Спасибо

Ответы [ 2 ]

5 голосов
/ 21 марта 2011

Вы можете применить это правило к результатам getTextContent ()

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");
0 голосов
/ 21 марта 2011

Вы можете использовать Perl-скрипт для просмотра файла, а затем s/ \< .* \> //xg;, чтобы избавиться от всех тегов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...