Я хочу использовать это регулярное выражение в Python:
<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>
(из RegEx соответствует открытым тегам, кроме автономных тегов XHTML )
def removeHtmlTags(page): p = re.compile(r'XXXX') return p.sub('', page)
Кажется, я не могу напрямую подставить сложное регулярное выражение в вышеуказанную функцию.
Работает здесь нормально. Возможно, у вас проблемы из-за кавычек. Просто трижды процитируй это:
def removeHtmlTags(page): p = re.compile(r'''<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>''') return p.sub('', page)
Если вам нужно удалить HTML-теги, это должно сделать это:
import re def removeHtmlTags(page): pattern = re.compile(r'\<[^>]+\>', re.I) return pattern.sub('', page)