Вам нужно перебрать Document.DocumentNode.Descendants("a")
и проверить, является ли тег href
плохим.
Аналогично, вы можете просмотреть Document.DocumentNode.Descendants("img")
и проверить атрибуты src
.
EDIT
Чтобы проверить наличие плохих атрибутов, вы можете сохранить Dictionary<string, IEnumerable<string>>
, который отображает имена тегов на допустимые атрибуты, а затем используйте LINQ для поиска отсутствующих атрибутов, например:
from tag in Document.DocumentNode.Descendants()
let legalAttributes = allAttributes[tag.TagName]
from attribute in tag.Attributes
where !legalAttributes.Contains(attribute.Name, StringComparer.OrdinalIgnoreCase)
select new { Tag = tag.OuterHtml, Attribute = attribute.Name }