Кеширование в urllib2?

/ 29 сентября 2008

Есть ли простой способ кеширования вещей при использовании urllib2, который я пропускаю, или мне нужно свернуть свой собственный?

Ответы [ 7 ]

/ 29 сентября 2008

Если вы не против работать на более низком уровне, httplib2 (https://github.com/httplib2/httplib2) - это отличная библиотека HTTP, включающая в себя функции кэширования.

/ 29 сентября 2008

Вы можете использовать функцию декоратора, такую ​​как:

class cache(object):
    def __init__(self, fun):
        self.fun = fun
        self.cache = {}

    def __call__(self, *args, **kwargs):
        key  = str(args) + str(kwargs)
            return self.cache[key]
        except KeyError:
            self.cache[key] = rval = self.fun(*args, **kwargs)
            return rval
        except TypeError: # incase key isn't a valid key - don't cache
            return self.fun(*args, **kwargs)

и определите функцию в соответствии с:

def get_url_src(url):
    return urllib.urlopen(url).read()

Предполагается, что вы не обращаете внимания на элементы управления HTTP Cache, а просто хотите кэшировать страницу на время работы приложения

/ 29 сентября 2008

Этот рецепт ActiveState Python может быть полезен: http://code.activestate.com/recipes/491261/

/ 10 ноября 2010

Я всегда разрывался между использованием httplib2, который выполняет солидную работу по обработке HTTP-кэширования и аутентификации, и urllib2, который находится в stdlib, имеет расширяемый интерфейс и поддерживает прокси-серверы HTTP.

Рецепт ActiveState начинает добавлять поддержку кэширования в urllib2, но только в очень примитивной форме. Он не позволяет расширять механизмы хранения, жестко программируя хранилище с файловой системой. Он также не учитывает заголовки кэша HTTP.

В попытке объединить лучшие функции кэширования httplib2 и расширяемости urllib2, я адаптировал рецепт ActiveState для реализации большей части тех же функций кэширования, которые есть в httplib2. Модуль находится в jaraco.net как jaraco.net.http.caching . Ссылка указывает на модуль, поскольку он существует на момент написания этой статьи. Хотя этот модуль в настоящее время является частью более крупного пакета jaraco.net, он не имеет внутрипакетных зависимостей, поэтому не стесняйтесь извлекать модуль и использовать его в своих собственных проектах.

В качестве альтернативы, если у вас Python 2.6 или новее, вы можете easy_install jaraco.net>=1.3, а затем использовать CachingHandler с чем-то вроде кода в caching.quick_test().

"""Quick test/example of CacheHandler"""
import logging
import urllib2
from httplib2 import FileCache
from jaraco.net.http.caching import CacheHandler

store = FileCache(".cache")
opener = urllib2.build_opener(CacheHandler(store))
response = opener.open("http://www.google.com/")
print response.headers
print "Response:", response.read()[:100], '...\n'

print response.headers
print "After reload:", response.read()[:100], '...\n'

Обратите внимание, что jaraco.util.http.caching не предоставляет спецификации для резервного хранилища для кэша, но вместо этого следует интерфейсу, используемому httplib2. По этой причине httplib2.FileCache можно использовать напрямую с urllib2 и CacheHandler. Кроме того, CacheHandler должен использовать другие резервные кэши, разработанные для httplib2.

/ 20 октября 2009

В этой статье на Yahoo Developer Network - http://developer.yahoo.com/python/python-caching.html - описывается, как кэшировать http-вызовы, сделанные через urllib, в память или на диск.

/ 14 февраля 2009

Я искал что-то похожее, и наткнулся на "Рецепт 491261: кэширование и регулирование для urllib2" , которое Даниво опубликовал. Проблема в том, что я действительно не люблю кеширующий код (много дублирования, много ручного объединения путей к файлам вместо использования os.path.join, использование статических методов, не очень PEP8, и других вещей, которые я стараться избегать)

Код немного приятнее (на мой взгляд, в любом случае) и функционально во многом аналогичен, с несколькими дополнениями - в основном это метод "recache" (пример использования может показаться здесь , или в if __name__ == "__main__": раздел в конце кода).

Самую последнюю версию можно найти по адресу http://github.com/dbr/tvdb_api/blob/master/cache.py,, и я вставлю ее сюда для потомков (со снятыми заголовками для моего приложения):

#!/usr/bin/env python
urllib2 caching handler
Modified from http://code.activestate.com/recipes/491261/ by dbr

import os
import time
import httplib
import urllib2
import StringIO
from hashlib import md5

def calculate_cache_path(cache_location, url):
    """Checks if [cache_location]/[hash_of_url].headers and .body exist
    thumb = md5(url).hexdigest()
    header = os.path.join(cache_location, thumb + ".headers")
    body = os.path.join(cache_location, thumb + ".body")
    return header, body

def check_cache_time(path, max_age):
    """Checks if a file has been created/modified in the [last max_age] seconds.
    False means the file is too old (or doesn't exist), True means it is
    up-to-date and valid"""
    if not os.path.isfile(path):
        return False
    cache_modified_time = os.stat(path).st_mtime
    time_now = time.time()
    if cache_modified_time < time_now - max_age:
        # Cache is old
        return False
        return True

def exists_in_cache(cache_location, url, max_age):
    """Returns if header AND body cache file exist (and are up-to-date)"""
    hpath, bpath = calculate_cache_path(cache_location, url)
    if os.path.exists(hpath) and os.path.exists(bpath):
            check_cache_time(hpath, max_age)
            and check_cache_time(bpath, max_age)
        # File does not exist
        return False

def store_in_cache(cache_location, url, response):
    """Tries to store response in cache."""
    hpath, bpath = calculate_cache_path(cache_location, url)
        outf = open(hpath, "w")
        headers = str(response.info())

        outf = open(bpath, "w")
    except IOError:
        return True
        return False

class CacheHandler(urllib2.BaseHandler):
    """Stores responses in a persistant on-disk cache.

    If a subsequent GET request is made for the same URL, the stored
    response is returned, saving time, resources and bandwidth
    def __init__(self, cache_location, max_age = 21600):
        """The location of the cache directory"""
        self.max_age = max_age
        self.cache_location = cache_location
        if not os.path.exists(self.cache_location):

    def default_open(self, request):
        """Handles GET requests, if the response is cached it returns it
        if request.get_method() is not "GET":
            return None # let the next handler try to handle the request

        if exists_in_cache(
            self.cache_location, request.get_full_url(), self.max_age
            return CachedResponse(
                set_cache_header = True
            return None

    def http_response(self, request, response):
        """Gets a HTTP response, if it was a GET request and the status code
        starts with 2 (200 OK etc) it caches it and returns a CachedResponse
        if (request.get_method() == "GET"
            and str(response.code).startswith("2")
            if 'x-local-cache' not in response.info():
                # Response is not cached
                set_cache_header = store_in_cache(
                set_cache_header = True
            #end if x-cache in response

            return CachedResponse(
                set_cache_header = set_cache_header
            return response

class CachedResponse(StringIO.StringIO):
    """An urllib2.response-like object for cached responses.

    To determine if a response is cached or coming directly from
    the network, check the x-local-cache header rather than the object type.
    def __init__(self, cache_location, url, set_cache_header=True):
        self.cache_location = cache_location
        hpath, bpath = calculate_cache_path(cache_location, url)

        StringIO.StringIO.__init__(self, file(bpath).read())

        self.url     = url
        self.code    = 200
        self.msg     = "OK"
        headerbuf = file(hpath).read()
        if set_cache_header:
            headerbuf += "x-local-cache: %s\r\n" % (bpath)
        self.headers = httplib.HTTPMessage(StringIO.StringIO(headerbuf))

    def info(self):
        """Returns headers
        return self.headers

    def geturl(self):
        """Returns original URL
        return self.url

    def recache(self):
        new_request = urllib2.urlopen(self.url)
        set_cache_header = store_in_cache(
        CachedResponse.__init__(self, self.cache_location, self.url, True)

if __name__ == "__main__":
    def main():
        """Quick test/example of CacheHandler"""
        opener = urllib2.build_opener(CacheHandler("/tmp/"))
        response = opener.open("http://google.com")
        print response.headers
        print "Response:", response.read()

        print response.headers
        print "After recache:", response.read()
/ 07 декабря 2010

@ dbr: может потребоваться добавить кэширование ответов https с помощью:

def https_response(self, request, response):
    return self.http_response(request,response)