Разбор HTML-таблицы с помощью Regex - PullRequest
1 голос
/ 30 июля 2010

Я пытаюсь извлечь содержимое таблицы с помощью Regex.

Я удалил большинство тегов из таблицы, я застрял с <br> , <a href >, <img > & <b> Как удалить их ??

для <b> тега я пробовал это регулярное выражение

 \s*<b[^>]*>\s* 
(?<value>.*?)
 \s* </b>\s*

это сработало для некоторых строк, а некоторые выдают его как

<b class="saadirheader">Email:</b>

Может кто-нибудь помочь мне удалить эти теги

<br> , <a href >, <img > and  <b>

Полные теги: -

<img src="Newrecord_files/spacer.gif" alt="" border="0" height="1" width="5">

<a href="mailto:first.last@email.org">

Благодарю вас,

Навин ХС

1 Ответ

1 голос
/ 06 октября 2012

Используйте следующее регулярное выражение:

(?:<br|<a href|<img|<b)(?:.(?!>))*.>

Это регулярное выражение будет соответствовать всем тегам, которые вы упомянули выше, и, если вы забыли упомянуть больше тегов, просто добавьте «|» подпишите тег, который вы хотите добавить, и вставьте его в первые скобки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...