Проблема с Python Regex - Ошибка многократного повторения - PullRequest
0 голосов
/ 02 мая 2020

Я читаю сценарий HTML и пытался заменить теги <a href=....> и <span ...> ничем (''), прежде чем использовать их для других операций извлечения.

Это мой код:

pageString = page.decode("utf-8")
content = re.sub('(<a|span.*?>)|(</a|span>)', '', repr(pageString))
matchObject2 = re.search(str(contentTagName) + '.*?' + str(textEnding), content)

Это работает для некоторых веб-сайтов, но для одного я получил эту ошибку:

    matchObject2 = re.search(str(contentTagName) + '.*?' + str(textEnding), content)
  File "...", line 183, in search
    return _compile(pattern, flags).search(string)
  File "...", line 286, in _compile
    p = sre_compile.compile(pattern, flags)
  File "...", line 764, in compile
    p = sre_parse.parse(p, flags)
  File "...", line 924, in parse
    p = _parse_sub(source, pattern, flags & SRE_FLAG_VERBOSE, 0)
  File "...", line 420, in _parse_sub
    not nested and not items))
  File "...", line 648, in _parse
    source.tell() - here + len(this))
re.error: multiple repeat at position 27

У меня никогда не было этой ошибки раньше. Может кто-то мне помочь, пожалуйста ? : -)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...