В своем регулярном выражении вы использовали .
, который может соответствовать любому символу. Вам нужно ограничить эту часть с помощью [^"\s]
, чтобы соответствовать любому символу, кроме "
или пробела.
Я предлагаю вам использовать
regex = r'http://www\.realclearpolitics\.com/epolls/\d{4}/governor/[^\s"]+-\d{4}\.html'
См. Демоверсию Python
Детали
http://www\.realclearpolitics\.com/epolls/
- буквальная http://www.realclearpolitics.com/epolls/
подстрока
\d{4}
- 4 цифры
/governor/
- буквальная подстрока
[^\s"]+
- 1+ символов кроме пробелов и "
-
- дефис
\d{4}
- 4 цифры
\.html
- подстрока .html
.