Question

Я пытаюсь получить изображения из поиска картинок Google по конкретному запросу. Но страница, которую я загружаю, не содержит картинок и перенаправляет меня на исходную страницу Google. Вот мой код:

AGENT_ID   = "Mozilla/5.0 (X11; Linux x86_64; rv:7.0.1) Gecko/20100101 Firefox/7.0.1"

GOOGLE_URL = "https://www.google.com/images?source=hp&q={0}"

_myGooglePage = ""

def scrape(self, theQuery) :
    self._myGooglePage = subprocess.check_output(["curl", "-L", "-A", self.AGENT_ID, self.GOOGLE_URL.format(urllib.quote(theQuery))], stderr=subprocess.STDOUT)
    print self.GOOGLE_URL.format(urllib.quote(theQuery))
    print self._myGooglePage
    f = open('./../../googleimages.html', 'w')
    f.write(self._myGooglePage)

Что я делаю не так?

Спасибо

Jaime Ivan Cervantes · Answer 1 · 24 ноября 2012

Это код в Python, который я использую для поиска и загрузки изображений из Google, надеюсь, он поможет:

import os
import sys
import time
from urllib import FancyURLopener
import urllib2
import simplejson

# Define search term
searchTerm = "hello world"

# Replace spaces ' ' in search term for '%20' in order to comply with request
searchTerm = searchTerm.replace(' ','%20')


# Start FancyURLopener with defined version 
class MyOpener(FancyURLopener): 
    version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
myopener = MyOpener()

# Set count to 0
count= 0

for i in range(0,10):
    # Notice that the start changes for each iteration in order to request a new set of images for each loop
    url = ('https://ajax.googleapis.com/ajax/services/search/images?' + 'v=1.0&q='+searchTerm+'&start='+str(i*4)+'&userip=MyIP')
    print url
    request = urllib2.Request(url, None, {'Referer': 'testing'})
    response = urllib2.urlopen(request)

    # Get results using JSON
    results = simplejson.load(response)
    data = results['responseData']
    dataInfo = data['results']

    # Iterate for each result and get unescaped url
    for myUrl in dataInfo:
        count = count + 1
        print myUrl['unescapedUrl']

        myopener.retrieve(myUrl['unescapedUrl'],str(count)+'.jpg')

    # Sleep for one second to prevent IP blocking from Google
    time.sleep(1)

Вы также можете найти очень полезную информацию здесь .

crizCraig · Answer 2 · 28 мая 2012

Вот короткий сценарий, который я написал, который делает весь поступок.

michaelfilms · Answer 3 · 17 февраля 2012

Я дам вам подсказку ... начните здесь:

https://ajax.googleapis.com/ajax/services/search/images?v=1.0&q=JULIE%20NEWMAR

Где JULIE и NEWMAR - это условия поиска.

Это вернет данные json, которые вам нужны ... вам нужно будет проанализировать это с помощью json.load или simplejson.load , чтобы вернуть диктовку ... углубившись в него, вы найдете сначала responseData , а затем список results , содержащий отдельные элементы, чей url вы затем захотите загрузить.

Хотя я никоим образом не предлагаю делать автоматическую очистку Google, поскольку их (устаревший) API для этого специально говорит, что нет.

Ravi Hirani · Answer 4 · 06 июля 2018

Один из лучших способов - использовать icrawler . Проверьте ответ ниже. Это работает для меня.

https://stackoverflow.com/a/51204611/4198099

riyoken · Answer 5 · 11 сентября 2013

Я просто присоединяюсь, чтобы ответить на это, даже если оно старое.Есть гораздо более простой способ сделать это.

def google_image(x):
        search = x.split()
        search = '%20'.join(map(str, search))
        url = 'http://ajax.googleapis.com/ajax/services/search/images?v=1.0&q=%s&safe=off' % search
        search_results = urllib.request.urlopen(url)
        js = json.loads(search_results.read().decode())
        results = js['responseData']['results']
        for i in results: rest = i['unescapedUrl']
        return rest

вот и все.

Python: правильный URL для загрузки картинок из Поиска картинок Google

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python: правильный URL для загрузки картинок из Поиска картинок Google

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы