При попытке извлечь заголовок html-страницы я всегда использовал следующее регулярное выражение:
(?<=<title.*>)([\s\S]*)(?=</title>)
Который будет извлекать все между тегами в документе и игнорировать сами теги. Однако при попытке использовать это регулярное выражение в Python возникает следующее исключение:
Traceback (most recent call last):
File "test.py", line 21, in <module>
pattern = re.compile('(?<=<title.*>)([\s\S]*)(?=</title>)')
File "C:\Python31\lib\re.py", line 205, in compile
return _compile(pattern, flags)
File "C:\Python31\lib\re.py", line 273, in _compile
p = sre_compile.compile(pattern, flags) File
"C:\Python31\lib\sre_compile.py", line 495, in compile
code = _code(p, flags) File "C:\Python31\lib\sre_compile.py", line 480, in _code
_compile(code, p.data, flags) File "C:\Python31\lib\sre_compile.py", line 115, in _compile
raise error("look-behind requires fixed-width pattern")
sre_constants.error: look-behind requires fixed-width pattern
Код, который я использую:
pattern = re.compile('(?<=<title.*>)([\s\S]*)(?=</title>)')
m = pattern.search(f)
если я сделаю некоторые минимальные корректировки, это сработает:
pattern = re.compile('(?<=<title>)([\s\S]*)(?=</title>)')
m = pattern.search(f)
Это, однако, не будет учитывать потенциальные заголовки HTML, которые по какой-либо причине имеют атрибуты или аналогичные.
Кто-нибудь знает хороший обходной путь для этой проблемы? Любые советы приветствуются.