Question

Мне нужно отсканировать список из нескольких тысяч хостов и найти как минимум два файла, укорененных там, которые больше некоторого значения, указанного в качестве аргумента. Может ли какой-нибудь популярный (основанный на Python?) Инструмент помочь?

Zachary Richey · Answer 1 · 02 апреля 2011

Вот пример того, как вы можете получить размер файла файла на HTTP-сервере.

import urllib2

def sizeofURLResource(url):
    """
    Return the size of an resource at 'url' in bytes
    """
    info = urllib2.urlopen(url).info()
    return info.getheaders("Content-Length")[0]

Здесь также есть библиотека для создания веб-скребков: http://dev.scrapy.org/ но яне знаю много об этом (просто гуглил честно).

hejibo · Answer 2 · 22 мая 2011

Вот как я это сделал. Смотрите код ниже.

import urllib2
url = 'http://www.ueseo.org'
r = urllib2.urlopen(url)
print len(r.read())

Как сканировать веб-страницу для файлов определенного размера

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сканировать веб-страницу для файлов определенного размера

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы