Получение alt тегов с помощью регулярных выражений - PullRequest
0 голосов
/ 06 мая 2009

Я анализирую некоторый источник HTML. Существует ли сценарий регулярного выражения, чтобы определить, являются ли теги alt в html-документе пустыми?

Я хочу посмотреть, являются ли теги alt пустыми или нет.

Подходит ли для этого регулярное выражение или мне следует использовать манипуляции со строками в C #?

Ответы [ 4 ]

2 голосов
/ 06 мая 2009

Вы должны проанализировать HTML и проверить теги, использовать следующую ссылку, она включает в себя библиотеку C # для синтаксического анализа тегов HTML, и вы можете циклически просматривать теги и получать количество тегов: Анализ тегов HTML .

0 голосов
/ 07 мая 2009

Регулярные выражения в принципе плохо разбирают HTML (см. . Можете ли вы привести некоторые примеры того, почему трудно анализировать XML и HTML с регулярным выражением? , почему). Что вам нужно, это HTML-парсер. См. Можете ли вы привести пример разбора HTML с вашим любимым парсером? для примеров использования различных парсеров.

0 голосов
/ 06 мая 2009

Если вы хотите сделать это, просто просматривая страницу, то CSS-селекторы могут быть лучше, если ваш браузер поддерживает: not selector.

Установите selectorgadget букмарклет. Активируйте его на своей странице, а затем поместите следующий селектор в поле ввода и нажмите Enter.

img:not([alt])

Если вы автоматизируете его и имеете доступ к DOM для HTML, вы можете использовать тот же селектор.

0 голосов
/ 06 мая 2009

Если это действительный XHTML, зачем вам вообще нужен Regex? Если вы просто ищете строку:

alt=""

... вы сможете найти все пустые теги alt.

В любом случае не должно быть слишком сложно создать Regex для поиска, учитывая плохо написанную разметку HTML (особенно с пробелами):

alt\s*=\s*"\s*"
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...