Question

Я загружаю весь каталог с веб-сервера. Это работает хорошо, но я не могу понять, как получить размер файла перед загрузкой, чтобы сравнить, был ли он обновлен на сервере или нет. Можно ли это сделать так, как если бы я загружал файл с FTP-сервера?

import urllib
import re

url = "http://www.someurl.com"

# Download the page locally
f = urllib.urlopen(url)
html = f.read()
f.close()

f = open ("temp.htm", "w")
f.write (html)
f.close()

# List only the .TXT / .ZIP files
fnames = re.findall('^.*<a href="(\w+(?:\.txt|.zip)?)".*$', html, re.MULTILINE)

for fname in fnames:
    print fname, "..."

    f = urllib.urlopen(url + "/" + fname)

    #### Here I want to check the filesize to download or not #### 
    file = f.read()
    f.close()

    f = open (fname, "w")
    f.write (file)
    f.close()

@ Джон: спасибо за быстрый ответ. Это работает, но размер файла на веб-сервере немного меньше, чем размер загружаемого файла.

Примеры:

Local Size  Server Size
 2.223.533  2.115.516
   664.603    662.121

Это как-то связано с преобразованием CR / LF?

Jonathan Works · Answer 1 · 08 августа 2008

Я воспроизвел то, что вы видите:

import urllib, os
link = "http://python.org"
print "opening url:", link
site = urllib.urlopen(link)
meta = site.info()
print "Content-Length:", meta.getheaders("Content-Length")[0]

f = open("out.txt", "r")
print "File on disk:",len(f.read())
f.close()


f = open("out.txt", "w")
f.write(site.read())
site.close()
f.close()

f = open("out.txt", "r")
print "File on disk after download:",len(f.read())
f.close()

print "os.stat().st_size returns:", os.stat("out.txt").st_size

Выводит это:

opening url: http://python.org
Content-Length: 16535
File on disk: 16535
File on disk after download: 16535
os.stat().st_size returns: 16861

Что я здесь не так делаю? Os.stat (). St_size не возвращает правильный размер?

Edit: Хорошо, я понял, в чем проблема:

import urllib, os
link = "http://python.org"
print "opening url:", link
site = urllib.urlopen(link)
meta = site.info()
print "Content-Length:", meta.getheaders("Content-Length")[0]

f = open("out.txt", "rb")
print "File on disk:",len(f.read())
f.close()


f = open("out.txt", "wb")
f.write(site.read())
site.close()
f.close()

f = open("out.txt", "rb")
print "File on disk after download:",len(f.read())
f.close()

print "os.stat().st_size returns:", os.stat("out.txt").st_size

это выводит:

$ python test.py
opening url: http://python.org
Content-Length: 16535
File on disk: 16535
File on disk after download: 16535
os.stat().st_size returns: 16535

Убедитесь, что вы открываете оба файла для двоичного чтения / записи.

// open for binary write
open(filename, "wb")
// open for binary read
open(filename, "rb")

dbr · Answer 2 · 08 августа 2008

Используя метод return-urllib-object info(), вы можете получить различную информацию о восстановленном документе. Пример получения текущего логотипа Google:

>>> import urllib
>>> d = urllib.urlopen("http://www.google.co.uk/logos/olympics08_opening.gif")
>>> print d.info()

Content-Type: image/gif
Last-Modified: Thu, 07 Aug 2008 16:20:19 GMT  
Expires: Sun, 17 Jan 2038 19:14:07 GMT 
Cache-Control: public 
Date: Fri, 08 Aug 2008 13:40:41 GMT 
Server: gws 
Content-Length: 20172 
Connection: Close

Это диктат, поэтому, чтобы получить размер файла, вы делаете urllibobject.info()['Content-Length']

print f.info()['Content-Length']

А чтобы получить размер локального файла (для сравнения), вы можете использовать команду os.stat ():

os.stat("/the/local/file.zip").st_size

Jonathan Works · Answer 3 · 08 августа 2008

Размер файла отправляется как заголовок Content-Length. Вот как это сделать с помощью urllib:

>>> site = urllib.urlopen("http://python.org")
>>> meta = site.info()
>>> print meta.getheaders("Content-Length")
['16535']
>>>

Jonathan Works · Answer 4 · 08 августа 2008

Кроме того, если сервер, к которому вы подключаетесь, поддерживает его, посмотрите Etags и If-Modified-Since и If-None-Match .

Использование этих правил позволит использовать правила кэширования веб-сервера и вернет код состояния 304 Не изменено , если содержимое не изменилось.

yukashima huksay · Answer 5 · 27 сентября 2017

Для подхода python3 (протестированного на 3.5) я бы порекомендовал:

with urlopen(file_url) as in_file, open(local_file_address, 'wb') as out_file:
    print(in_file.getheader('Content-Length'))
    out_file.write(response.read())

Madhusudhan · Answer 6 · 26 августа 2014

В Python3:

>>> import urllib.request
>>> site = urllib.request.urlopen("http://python.org")
>>> print("FileSize: ", site.length)

ccpizza · Answer 7 · 04 декабря 2016

A запрашивает решение на основе с использованием HEAD вместо GET (также печатает заголовки HTTP):

#!/usr/bin/python
# display size of a remote file without downloading

from __future__ import print_function
import sys
import requests

# number of bytes in a megabyte
MBFACTOR = float(1 << 20)

response = requests.head(sys.argv[1], allow_redirects=True)

print("\n".join([('{:<40}: {}'.format(k, v)) for k, v in response.headers.items()]))
size = response.headers.get('content-length', 0)
print('{:<40}: {:.2f} MB'.format('FILE SIZE', int(size) / MBFACTOR))

Использование

$ python filesize-remote-url.py https://httpbin.org/image/jpeg
...
Content-Length                          : 35588
FILE SIZE (MB)                          : 0.03 MB

Получить размер файла перед загрузкой в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получить размер файла перед загрузкой в ​​Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы

Получить размер файла перед загрузкой в Python