Как получить все URL-адреса изображений с помощью urllib.request.urlopen из нескольких URL-адресов - PullRequest
0 голосов
/ 01 марта 2020
from bs4 import BeautifulSoup
import urllib.request

urls = [
"https://archillect.com/1",
"https://archillect.com/2",
"https://archillect.com/3",
]

soup = BeautifulSoup(urllib.request.urlopen(urls))

for u in urls:
   for img in soup.find_all("img", src=True):
    print(img["src"])

AttributeError: у объекта 'list' нет атрибута 'timeout'

Ответы [ 2 ]

0 голосов
/ 01 марта 2020

@ Кришна дал вам ответ. Я дам вам другое решение только для справки.

from simplified_scrapy import Spider, SimplifiedDoc, SimplifiedMain, utils
class ImageSpider(Spider):
  name = 'archillect'
  start_urls = ["https://archillect.com/1","https://archillect.com/2","https://archillect.com/3"]
  def afterResponse(self, response, url, error=None):
    try:
      # Create file name
      end = url.find('?') if url.find('?')>0 else len(url)
      name = 'data'+url[url.rindex('/',0,end):end]
      # save image
      if utils.saveResponseAsFile(response,name,'image'):
        return None 
      else:
        return Spider.afterResponse(self, response, url, error)
    except Exception as err:
      print (err)
  def extract(self,url,html,models,modelNames):
    doc = SimplifiedDoc(html)
    urls = doc.listImg(url=url.url)
    return {'Urls':urls} 
SimplifiedMain.startThread(ImageSpider()) # Start

Вот еще примеры: https://github.com/yiyedata/simplified-scrapy-demo/tree/master/spider_examples

0 голосов
/ 01 марта 2020

Нельзя передать список URL.

for url in urls:
   soup = BeautifulSoup(urllib.request.urlopen(url))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...