Получить атрибуты HTML, используя Regex - PullRequest
1 голос
/ 10 августа 2009

Мне нужен быстрый способ поместить кучу атрибутов html в словарь. Вот так

<body topmargin=10 leftmargin=0 class="something"> should amount to

attr["topmargin"]="10"
attr["leftmargin"]="0"
attr["class"]="something"

Это должно быть сделано на стороне сервера, и содержимое тега уже доступно. Мне просто нужно отсеять теги без значения и учесть разные кавычки или отсутствие.

Я предполагаю, что регулярное выражение должно быть использовано. Нашел несколько похожих вопросов, но ни один из них действительно не соответствует моим потребностям.

Спасибо

edit: уточнение на стороне сервера

Ответы [ 2 ]

4 голосов
/ 10 августа 2009

А как насчет HtmlAgilityPack ?

0 голосов
/ 10 августа 2009

Я также думаю, что лучше использовать специализированные парсеры, но если вы хотите использовать регулярные выражения, попробуйте что-то вроде:

\<(?<tag>[a-zA-Z]+)( (?<name>\w+)="?(?<value>\w+)"?)*\>

Я только что проверил, работает довольно хорошо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...