Поток больших двоичных файлов с urllib2 в файл - PullRequest
53 голосов
/ 05 октября 2009

Я использую следующий код для потоковой передачи больших файлов из Интернета в локальный файл:

fp = open(file, 'wb')
req = urllib2.urlopen(url)
for line in req:
    fp.write(line)
fp.close()

Это работает, но загружается довольно медленно. Есть ли более быстрый способ? (Файлы большие, поэтому я не хочу хранить их в памяти.)

Ответы [ 4 ]

104 голосов
/ 05 октября 2009

Нет причин работать построчно (маленькие куски И требует, чтобы Python нашел конец строки для вас! -), просто разбейте его на большие куски, например:

# from urllib2 import urlopen # Python 2
from urllib.request import urlopen # Python 3

response = urlopen(url)
CHUNK = 16 * 1024
with open(file, 'wb') as f:
    while True:
        chunk = response.read(CHUNK)
        if not chunk:
            break
        f.write(chunk)

Поэкспериментируйте с различными размерами блоков, чтобы найти "подходящее место" для ваших требований.

64 голосов
/ 22 марта 2011

Вы также можете использовать шутил :

import shutil
try:
    from urllib.request import urlopen # Python 3
except ImportError:
    from urllib2 import urlopen # Python 2

def get_large_file(url, file, length=16*1024):
    req = urlopen(url)
    with open(file, 'wb') as fp:
        shutil.copyfileobj(req, fp, length)
6 голосов
/ 05 октября 2009

Я использовал модуль mechanize и его метод Browser.retrieve (). В прошлом он занимал 100% CPU и загружал вещи очень медленно, но в некоторых последних выпусках эта ошибка была исправлена ​​и работает очень быстро.

Пример:

import mechanize
browser = mechanize.Browser()
browser.retrieve('http://www.kernel.org/pub/linux/kernel/v2.6/testing/linux-2.6.32-rc1.tar.bz2', 'Downloads/my-new-kernel.tar.bz2')

Механизация основана на urllib2, поэтому в urllib2 также может быть похожий метод ... но я не могу его найти.

4 голосов
/ 27 августа 2014

Вы можете использовать urllib.retrieve () для загрузки файлов:

Пример:

try:
    from urllib import urlretrieve # Python 2

except ImportError:
    from urllib.request import urlretrieve # Python 3

url = "http://www.examplesite.com/myfile"
urlretrieve(url,"./local_file")
...