Использование linkGrabber для получения 'href' из поиска Google в python - PullRequest
0 голосов
/ 17 апреля 2020

Хорошо, все, что я хочу сделать, - это получить самую первую ссылку в первом поиске Google. Я пытался использовать beautifoulsoup, но это не сработало вообще, я не мог найти способ получить ссылку. Я попытался использовать linkGrabber, поэтому теперь я получаю все URL-адреса в поиске Google (я ограничил результаты только 1 на страницу). Мой код:

import re
import linkGrabber
import urllib

input = str(input('Give movie name:  '))
input = urllib.parse.quote_plus(input)
imdb_s = '+imdb+review'
n = 1
g_s = 'https://www.google.com/search?q='+ input + imdb_s +'&num=' + str(n)
links = linkGrabber.Links(g_s)
gb = links.find(pretty=True)
print(gb)

, однако, когда я печатаю, я получаю 15 ссылок от Google, которые я не хочу использовать, я хочу сосредоточиться только на одном указанном c href и взять это. Может кто-нибудь помочь мне?

1 Ответ

0 голосов
/ 17 апреля 2020

вы можете использовать поисковую библиотеку Google - я думаю, pip install google. Эта библиотека также опирается на красивый суп, но пригодна для возврата только результатов поиска. Проблема в том, что страница, которую Google возвращает при поиске, содержит рекламу и кучу других ссылок, которые не являются фактическими результатами поиска.

Вы также можете изменить свой запрос на "site: imdb.com +", чтобы только поиск по imbd.

Тем не менее, я перестал использовать это для своих потребностей в поиске, потому что это противоречит условиям обслуживания Google. Я ничего не морализирую, но реальность такова, что я не могу получить большую надежность, так как Google продолжает выискивать ботов и повторять их.

Правильный способ сделать это - использовать пользовательский Google. API поиска - он также хорош только для возврата необходимой информации и бесплатен для 100 запросов в день.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...