используйте регулярное выражение, чтобы найти URL в Python - PullRequest
0 голосов
/ 01 марта 2019

Я пытался проанализировать все заголовки с веб-сайта и создать новую переменную для пользовательского ввода для ключевых слов заголовка, а затем вернуть совпавший заголовок и связанный URL, может кто-нибудь помочь понять, почему я не могу получить URL,вместо этого он вернул пустой список, спасибо

import re, urllib.request
link = "http://cgi.soic.indiana.edu/~dpierz/news.html"
web_page = urllib.request.urlopen(link)
lines = web_page.read().decode(errors = "replace")
web_page.close()
titles = re.findall('(?<=<span itemprop="headline">).+?(?=</span>)', lines, re.DOTALL)
for name in titles:
    print(name)
user = input("Please enter a word to searh for: ")
for title in titles:
    if user in title:
        print(title)
        print(re.findall('(?<=<a itemprop="url" href=").+?(?="><span itemprop="headline">"{}"</span>)'.format(title), lines, re.DOTALL))

1 Ответ

0 голосов
/ 01 марта 2019
re.findall(r'<a itemprop="url" href=(".*?")><span itemprop="headline">{}'.format(title), lines)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...