Question

Я анализирую XML-документы. Я делаю getTextContent(), чтобы получить текст из определенного раздела, который я хочу. Текст, который я получаю, имеет теги типа

<italic> </italic>
<sub> </sub>

.. и еще немного. Я хочу удалить эти теги и просто сохранить текст независимо от того, что это за теги.

Мой документ выглядит так

<article>
   <sec>Section 1</sec>  
   <sec>Section 2
      <title>Title1</title>
      <sec>
         <title>Subtitle1</title>
         <p>........<italic> </italic>...</p>
      </sec>
      <sec>
         <title>Subtitle2</title>
         <p>........<sub> </sub>...</p>
      </sec>
   </sec>
</article>

Мне нужен весь текст в <p>...</p> без тегов. Как я могу пойти об этом? Я думал об идентификации всех тегов и замене его на "". Но должен быть лучший путь.

Спасибо

Kevin D · Answer 1 · 21 марта 2011

Вы можете применить это правило к результатам getTextContent ()

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");

B. Bowles · Answer 2 · 21 марта 2011

Вы можете использовать Perl-скрипт для просмотра файла, а затем s/ \< .* \> //xg;, чтобы избавиться от всех тегов.

Полоса тегов из текста, извлеченного из XML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Полоса тегов из текста, извлеченного из XML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов