Я получил некоторый HTML-текст, который содержит все виды HTML-тегов, таких как <table>, <a>, <img>
и т. Д.
Теперь я хочу использовать регулярное выражение для удаления всех HTML-тегов, кроме <img ...>
и </img>
(и верхний регистр <IMG></IMG>
).
Как это сделать?
ОБНОВЛЕНИЕ:
MyЗадача очень проста, она просто печатает текстовое содержимое (включая изображения) html в виде сводки на главной странице, поэтому я думаю, что регулярное выражение - это хорошо и достаточно просто.
ОБНОВЛЕНИЕ СНОВА
Возможно, образец поможет лучше понять мой вопрос:)
Есть несколько html-текстов:
<html>
<head></head>
<body>
Hello, everyone. Here is my photo: <img src="xxx.jpg" />.
And, <a href="xxx">know more</a> about me!
</body>
</html>
Я хочу сохранить и удалить другие теги.Вот что я хочу:
Hello, everyone. Here is my photo: <img src="xxx.jpg" />. And, know more about me!
Теперь я кодирую так:
html.replaceAll("<.*?>", "")
Но это удалит весь контент между <
и >
, но я хочуоставьте <img xxx>
и </img>
и удалите другое содержимое между < and >
Спасибо всем!