Как сканировать веб-страницу для файлов определенного размера - PullRequest
0 голосов
/ 02 апреля 2011

Мне нужно отсканировать список из нескольких тысяч хостов и найти как минимум два файла, укорененных там, которые больше некоторого значения, указанного в качестве аргумента. Может ли какой-нибудь популярный (основанный на Python?) Инструмент помочь?

Ответы [ 2 ]

2 голосов
/ 02 апреля 2011

Вот пример того, как вы можете получить размер файла файла на HTTP-сервере.

import urllib2

def sizeofURLResource(url):
    """
    Return the size of an resource at 'url' in bytes
    """
    info = urllib2.urlopen(url).info()
    return info.getheaders("Content-Length")[0]

Здесь также есть библиотека для создания веб-скребков: http://dev.scrapy.org/ но яне знаю много об этом (просто гуглил честно).

1 голос
/ 22 мая 2011

Вот как я это сделал. Смотрите код ниже.

import urllib2
url = 'http://www.ueseo.org'
r = urllib2.urlopen(url)
print len(r.read())
...