Как получить правильный URL-адрес в поиске Google, используя Python - PullRequest
0 голосов
/ 11 апреля 2019

Я пытаюсь получить первый URL в поиске Google. Как я ищу "tcs" в Google, и это дает http://www.tcs.com/. В основном результат правильный, но иногда я не получаю правильный URL. Я хочу решение для этого. попробуйте это в поиске Google: - "Euler Baubetr. u. Bauleitungsges. mbH" и результат приходит: - https://www.firmenwissen.com/.../EULER_BAUBETREUUNG_UND_ BAULEITUNGSGESELLSCHAFT_MBH.html

в выходной URL в середине ...... приходит

и желаемый результат: - https://www.firmenwissen.com/en/az/firmeneintrag/63654/6110225969/EULER_BAUBETREUUNG_UND_BAULEITUNGSGESELLSCHAFT_MBH.html

Код: -

   import requests

   from bs4 import BeautifulSoup as bs

   var="Euler Baubetr. u. Bauleitungsges. mbH"

   goog_search = "https://www.google.co.uk/search?sclient=psyab&client=ubuntu&hs=k5b&channel=fs&biw=1366&bih=648&noj=1&q=" + var


   r = requests.get(goog_search)

   soup = bs(r.text, "html.parser")

   url=soup.find('cite').text

   print(url)

1 Ответ

0 голосов
/ 11 апреля 2019

Вы должны перейти по правильному href, чтобы получить URL, см. Код ниже ...

import requests
from bs4 import BeautifulSoup as bs

var="Euler Baubetr. u. Bauleitungsges. mbH"
goog_search = "https://www.google.co.uk/search?sclient=psyab&client=ubuntu&hs=k5b&channel=fs&biw=1366&bih=648&noj=1&q=" + var

r = requests.get(goog_search)
soup = bs(r.text, "html.parser")
url = soup.find('h3',attrs={'class':'r'}).a['href']
print(url)
...