BeautifulSoup4 .get ('href') возвращает не только href, но также и мусор - PullRequest
0 голосов
/ 17 октября 2019

Я пишу программу, которая ищет в Google «jopa olega» и печатает URL первого результата

Это код, который я запускаю:

import requests, webbrowser, bs4

res = requests.get("https://www.google.com/search?q=" + "jopa olega")
res.raise_for_status()

soup = bs4.BeautifulSoup(res.text, features="html.parser")

links = soup.select('div#main > div > div > div > a')

href = links[0].get('href')  # <---- problem may be here
print(href)

Что я ожидаючтобы увидеть:

https://pirozhki-ru.livejournal.com/990964.html

Фактический вывод:

/url?q=https://pirozhki-ru.livejournal.com/990964.html&sa=U&ved=2ahUKEwjppYzLgKTlAhUMxosKHS5rDmkQFjAAegQIBBAB&usg=AOvVaw0UtLIaLS93pUQMWBngtgz7

Это HTML-код ссылки:

<a href="https://pirozhki-ru.livejournal.com/990964.html" 
   ping="/url?sa=t&amp;source=web&amp;rct=j&amp;url=https://pirozhki-ru.livejournal.com/990964.html&amp;ved=2ahUKEwiHn7P9h6TlAhURpIsKHRX5CRwQFjAAegQIAhAB">...
</a>

Кстати, выход отличается каждыйвремя. Кто-нибудь знает, почему это происходит? Любая помощь приветствуется. Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...