Question

Я пишу скребок, который загружает все файлы изображений со страницы HTML и сохраняет их в определенную папку. все изображения являются частью HTML-страницы.

Ryan Ginstrom · Answer 1 · 03 ноября 2008

Вот некоторый код для загрузки всех изображений с предоставленного URL-адреса и сохранения их в указанной выходной папке. Вы можете изменить его в соответствии со своими потребностями.

"""
dumpimages.py
    Downloads all the images on the supplied URL, and saves them to the
    specified output file ("/test/" by default)

Usage:
    python dumpimages.py http://example.com/ [output]
"""
from bs4 import BeautifulSoup as bs
from urllib.request import (
    urlopen, urlparse, urlunparse, urlretrieve)
import os
import sys

def main(url, out_folder="/test/"):
    """Downloads all the images at 'url' to /test/"""
    soup = bs(urlopen(url))
    parsed = list(urlparse(url))

    for image in soup.findAll("img"):
        print("Image: %(src)s" % image)
        filename = image["src"].split("/")[-1]
        parsed[2] = image["src"]
        outpath = os.path.join(out_folder, filename)
        if image["src"].lower().startswith("http"):
            urlretrieve(image["src"], outpath)
        else:
            urlretrieve(urlunparse(parsed), outpath)

def _usage():
    print("usage: python dumpimages.py http://example.com [outpath]")

if __name__ == "__main__":
    url = sys.argv[-1]
    out_folder = "/test/"
    if not url.lower().startswith("http"):
        out_folder = sys.argv[-1]
        url = sys.argv[-2]
        if not url.lower().startswith("http"):
            _usage()
            sys.exit(-1)
    main(url, out_folder)

Редактировать: Теперь вы можете указать выходную папку.

Catherine Devlin · Answer 2 · 17 ноября 2010

Решение Райана хорошее, но оно терпит неудачу, если URL источника изображения являются абсолютными URL или что-то, что не дает хорошего результата, если просто объединить с URL главной страницы. urljoin распознает абсолютные и относительные URL, поэтому замените цикл посередине на:

for image in soup.findAll("img"):
    print "Image: %(src)s" % image
    image_url = urlparse.urljoin(url, image['src'])
    filename = image["src"].split("/")[-1]
    outpath = os.path.join(out_folder, filename)
    urlretrieve(image_url, outpath)

Dingo · Answer 3 · 15 марта 2010

А это функция для скачивания одного изображения:

def download_photo(self, img_url, filename):
    file_path = "%s%s" % (DOWNLOADED_IMAGE_PATH, filename)
    downloaded_image = file(file_path, "wb")

    image_on_web = urllib.urlopen(img_url)
    while True:
        buf = image_on_web.read(65536)
        if len(buf) == 0:
            break
        downloaded_image.write(buf)
    downloaded_image.close()
    image_on_web.close()

    return file_path

user20955 · Answer 4 · 03 ноября 2008

Вы должны загрузить страницу и разобрать html-документ, найти свое изображение с помощью regex и загрузить его. Вы можете использовать urllib2 для загрузки и Beautiful Soup для анализа html-файла.

Martin v. Löwis · Answer 5 · 03 ноября 2008

Используйте htmllib для извлечения всех тегов img (переопределите do_img), затем используйте urllib2 для загрузки всех изображений.

Lerner Zhang · Answer 6 · 19 июля 2014

Если для запроса требуется авторизация, обратитесь к этому:

r_img = requests.get(img_url, auth=(username, password)) 
f = open('000000.jpg','wb') 
f.write(r_img.content) 
f.close()

Загрузить файл изображения из источника HTML-страницы, используя python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Загрузить файл изображения из источника HTML-страницы, используя python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы