Очистка изображений Google с python - PullRequest
1 голос
/ 06 февраля 2020

Я пытаюсь выучить python соскоб и наткнулся на программу, чтобы вычистить определенное количество изображений из результатов поиска картинок Google

Я изменил его на go для 5 изображений, оно работало какое-то время, но он недавно перестал работать с отображением таких выводов, как there are 0 images

import requests
import re
import urllib2
import os
import cookielib
import json

def get_soup(url,header):
    return BeautifulSoup(urllib2.urlopen(urllib2.Request(url,headers=header)),'html.parser')


query = raw_input("query image")# you can change the query for the image  here
image_type="ActiOn"
query= query.split()
query='+'.join(query)
url="https://www.google.com/search?q="+query+"&source=lnms&tbm=isch"
print url
#add the directory for your image here
DIR="C:\Users\mynam\Desktop\WB"
header={'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.134 Safari/537.36"
}
soup = get_soup(url,header)


ActualImages=[]# contains the link for Large original images, type of  image
for a in soup.find_all("div",{"class":"rg_meta"}):
    link , Type =json.loads(a.text)["ou"]  ,json.loads(a.text)["ity"]
    ActualImages.append((link,Type))

print  "there are total" , len(ActualImages),"images"

if not os.path.exists(DIR):
            os.mkdir(DIR)
DIR = os.path.join(DIR, query.split()[0])

if not os.path.exists(DIR):
            os.mkdir(DIR)
###print images
for i , (img , Type) in enumerate(ActualImages[0:5]):
    try:
        req = urllib2.Request(img, headers={'User-Agent' : header})
        raw_img = urllib2.urlopen(req).read()

        cntr = len([i for i in os.listdir(DIR) if image_type in i]) + 1
        print cntr
        if len(Type)==0:
            f = open(os.path.join(DIR , image_type + "_"+ str(cntr)+".jpg"), 'wb')
        else :
            f = open(os.path.join(DIR , image_type + "_"+ str(cntr)+"."+Type), 'wb')


        f.write(raw_img)
        f.close()
    except Exception as e:
        print "could not load : "+img
        print e

Нет журналов ошибок, файл создается и он пуст. Массив ActualImages по какой-то причине остается пустым.

Ответы [ 3 ]

2 голосов
/ 08 февраля 2020

Похоже, что Google недавно удалил метаданные из результатов поиска изображений, т.е. вы не найдете rg_meta в HTML. Поэтому soup.find_all("div",{"class":"rg_meta"}): ничего не вернет.

Я не нашел решения для этого. Я полагаю, что Google сделал это изменение с целью предотвращения списания.

1 голос
/ 03 апреля 2020

Две проблемы в предоставленном вами коде:

  • Google внедряет часть тегов rg_meta с помощью функции _defd JS. Вам нужно извлечь и расшифровать его аргументы
  • Изображения Google также содержат изображения непосредственно в виде тегов HTML вместо .rg_meta. Вы можете анализировать их как обычные теги HTML.

Часть кода Google JS из Google Images, который внедряет теги. Первый аргумент defd1 - это идентификатор элемента-заполнителя HTML, который необходимо заменить содержимым. Второй аргумент кодируется HTML строка.

_defd('defd1','\x3cdiv  jsaction\x3d\x22IE7JUb:e5gl8b;MW7oTe:fL5Ibf;dtRDof:s370ud;R3mad:ZCNXMe;v03O1c:cJhY7b;\x22 data-ved\x3d\x222ahUKEwiGmK7a3szoAhVDB3cKHesrAQoQMygVegQIARBY\x22  data-ictx\x3d\x221\x22 data-id\x3d\x229pyRez7A01yLeM\x22 jsname\x3d\x22N9Xkfe\x22 data-ri\x3d\x2221\x22 class\x3d\x22isv-r PNCib MSM1fd BUooTd\x22 jscontroller\x3d\x22SI4J6c\x22 jsmodel\x3d\x22uZbpBf sB4qxc\x22 jsdata\x3d\x22j0Opre;9pyRez7A01yLeM;27\x22 style\x3d\x22width:283px;\x22 data-tbnid\x3d\x229pyRez7A01yLeM\x22  data-ct\x3d\x220\x22 data-cb\x3d\x220\x22 data-cl\x3d\x220\x22 data-cr\x3d\x223\x22 data-tw\x3d\x22299\x22 data-ow\x3d\x221100\x22 data-oh\x3d\x22619\x22\x3e\x3ca class\x3d\x22wXeWr islib nfEiy mM5pbd\x22 jsname\x3d\x22sTFXNd\x22 jsaction\x3d\x22click:J9iaEb;\x22 jsaction\x3d\x22mousedown:npT2md; touchstart:npT2md;\x22 data-nav\x3d\x221\x22 tabindex\x3d\x220\x22 style\x3d\x22height:164px;\x22\x3e\x3cdiv class\x3d\x22bRMDJf islir\x22 jsname\x3d\x22DeysSe\x22 style\x3d\x22background:rgb(200,194,187);width:292px; height:164px;margin-left:0px; margin-right:-9px;\x22 jsaction\x3d\x22mousedown:npT2md; touchstart:npT2md;\x22\x3e\x3cimg class\x3d\x22rg_i Q4LuWd tx8vtf\x22 data-src\x3d\x22https:\/\/encrypted-tbn0.gstatic.com\/images?q\x3dtbn%3AANd9GcQ3_h7vxb_72egN52iUj6J4TQs7XajUVhI6BxP_tMepqnFdcGL1\x26amp;usqp\x3dCAU\x22 data-lt\x3d\x22\x22  jsname\x3d\x22Q4LuWd\x22  alt\x3d\x22Jamaican Coffee Companies Devise Plan to Court US Market - OECS ...\x22 \/\x3e\x3c\/div\x3e\x3cdiv class\x3d\x22c7cjWc\x22\x3e\x3c\/div\x3e\x3cdiv class\x3d\x22PiLIec\x22 jsaction\x3d\x22click: gFs2Re\x22\x3e\x3c\/div\x3e\x3c\/a\x3e\x3ca class\x3d\x22VFACy kGQAp\x22 data-ved\x3d\x222ahUKEwiGmK7a3szoAhVDB3cKHesrAQoQr4kDegQIARBZ\x22 jsname\x3d\x22uy6ald\x22 rel\x3d\x22noopener\x22 target\x3d\x22_blank\x22 href\x3d\x22http:\/\/oecsbusinessfocus.com\/jamaican-coffee-companies-devise-plan-to-court-us-market\/\x22 jsaction\x3d\x22focus:kvVbVb; mousedown:kvVbVb; touchstart:kvVbVb;\x22\x3e\x3cdiv class\x3d\x22sMi44c lNHeqe\x22\x3e\x3cdiv class\x3d\x22WGvvNb\x22 \x3eJamaican Coffee Companies Devise Plan ...\x3c\/div\x3e\x3cdiv class\x3d\x22fxgdke\x22\x3eoecsbusinessfocus.com\x3c\/div\x3e\x3c\/div\x3e\x3c\/a\x3e\x3c\/div\x3e')

Или вы можете использовать платное стороннее решение.

Раскрытие информации: я работаю в SerpApi.


Вы можете использовать пакет google-search-results для извлечения данных из Новостей Google. Проверьте демонстрацию на Repl.it .

from serpapi.google_search_results import GoogleSearchResults

params = {
    "engine": "google",
    "q": "coffee",
    "tbm": "isch",
}

client = GoogleSearchResults(params)
data = client.get_dict()

print("Images results")

for result in data['images_results']:
    print(f"""
Title: {result['title']}
Source: {result['source']}
Link: {result['link']}
Thumbnail: {result['thumbnail']}
""")

Часть JSON ответа

{
  "images_results": [
    {
      "position": 1,
      "thumbnail": "",
      "source": "en.wikipedia.org",
      "title": "Coffee - Wikipedia",
      "link": "https://en.wikipedia.org/wiki/Coffee",
      "original": "https://upload.wikimedia.org/wikipedia/commons/thumb/4/45/A_small_cup_of_coffee.JPG/1200px-A_small_cup_of_coffee.JPG"
    },
    {
      "position": 2,
      "thumbnail": "",
      "source": "medicalnewstoday.com",
      "title": "How coffee protects the brain",
      "link": "https://www.medicalnewstoday.com/articles/323594",
      "original": "https://i0.wp.com/cdn-prod.medicalnewstoday.com/content/images/articles/323/323594/white-cup-with-black-coffee.jpg?w=1155&h=1541"
    }
}

Вывод

Title: Coffee with Lemon: Are There Any Benefits?
Source: healthline.com
Link: https://www.healthline.com/nutrition/coffee-with-lemon
Thumbnail: https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcTfiJ9fdiKdpgXO4hA06s6EnEEl4ggsu3h8OX5wnvzB8JRDdZ_c&usqp=CAU


Title: Home - Lorraine's Coffehouse & Music
Source: lorrainescoffeehouse.com
Link: http://www.lorrainescoffeehouse.com/
Thumbnail: https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcRolfSo0JczGmA_-g4WiyYqcdZ5n0h_W0RKv6fhTNEJ3_mkl1FT&usqp=CAU


Title: Drink Your Morning Cup of Coffee ...
Source: travelandleisure.com
Link: https://www.travelandleisure.com/food-drink/best-time-to-have-morning-coffee
Thumbnail: https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcQ_abezj9gdRIvh5Q3jrgxU6hb1Qh7NnePQGXbuubx00T9oek_z&usqp=CAU


Title: Coffee | Food | The Guardian
Source: theguardian.com
Link: https://www.theguardian.com/food/coffee
Thumbnail: https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcQdMeXkZZONjzHPtrYadVI1bYmv4_valoRXJQLMU0hNGq_Q-aeJ&usqp=CAU

Если вы За дополнительной информацией обращайтесь к документации SerpApi или живая игровая площадка .

SerpApi Google Images playground

0 голосов
/ 03 марта 2020

Я столкнулся с той же проблемой, не могу найти rg_meta Я нашел код, который может загрузить приблизительно первые 80 изображений, хотя .. но не работает для прокрутки

extensions = { "jpg", "jpeg", "png", "gif" }

html = browser.page_source.split('["')
print(html)
imges = []
for i in html:
    if i.startswith('http') and i.split('"')[0].split('.')[-1] in extensions:
        x=i.split('"')[0]


        if(succounter>=totalcount):
            break
        counter = counter + 1
        print "Total Count:", counter
        print "Succsessful Count:", succounter
        print "URL:",x

        try:
            req = urllib2.Request(x, headers={'User-Agent': header})
            succounter = succounter + 1
            if(succounter>1000):
                break
        except:
                print "can't get img"
...