Регулярное выражение Python «не» для определения шаблона в пределах <a></a> - PullRequest
0 голосов
/ 13 июля 2011

Я сталкиваюсь с проблемой написания регулярного выражения Python 'not' для определения определенного шаблона в тегах href.

Моя цель - заменить все вхождения DSS [a-z] {2} [0-9] {2} ссылкой href, как показано ниже, но без замены того же шаблона, встречающегося внутри тегов href

Настоящее Regex:

replaced = re.sub("[^http://*/s](DSS[a-z]{2}[0-9]{2})", "<a href=\"http://test.com=\\1\">\\1</a>", input)

Мне нужно добавить это новое регулярное выражение с помощью оператора OR к существующему, который у меня есть

EDIT:

Я пытаюсь использовать регулярное выражение только для простой операции. Я хочу заменить вхождения шаблона в любом месте HTML, используя регулярное выражение, кроме случаев, встречающихся в <a><\a>.

1 Ответ

3 голосов
/ 13 июля 2011

Ответ на любой вопрос с регулярным выражением и HTML в одном предложении: здесь .

В Python лучший анализатор HTML действительно Beautilf Soup .

Если вы хотите сохранить с помощью регулярного выражения, вы можете попробовать отрицательный взгляд за , чтобы избежать чего-либо обработанного ".На свой страх и риск.

...