Я читаю сценарий HTML и пытался заменить теги <a href=....>
и <span ...>
ничем ('')
, прежде чем использовать их для других операций извлечения.
Это мой код:
pageString = page.decode("utf-8")
content = re.sub('(<a|span.*?>)|(</a|span>)', '', repr(pageString))
matchObject2 = re.search(str(contentTagName) + '.*?' + str(textEnding), content)
Это работает для некоторых веб-сайтов, но для одного я получил эту ошибку:
matchObject2 = re.search(str(contentTagName) + '.*?' + str(textEnding), content)
File "...", line 183, in search
return _compile(pattern, flags).search(string)
File "...", line 286, in _compile
p = sre_compile.compile(pattern, flags)
File "...", line 764, in compile
p = sre_parse.parse(p, flags)
File "...", line 924, in parse
p = _parse_sub(source, pattern, flags & SRE_FLAG_VERBOSE, 0)
File "...", line 420, in _parse_sub
not nested and not items))
File "...", line 648, in _parse
source.tell() - here + len(this))
re.error: multiple repeat at position 27
У меня никогда не было этой ошибки раньше. Может кто-то мне помочь, пожалуйста ? : -)