Я пишу паука, которому нужна функция load_url
, которая выполняет для меня следующее:
- Повторите URL, если есть временная ошибка, без утечек исключений.
- Не утечка памяти или файловых дескрипторов
- Использовать HTTP-KeepAlive для скорости (необязательно)
URLGrabber отлично выглядит на поверхности, но у него есть проблемы. Сначала я столкнулся с проблемой, когда открылось слишком много файлов, но я смог обойти эту проблему, отключив функцию проверки активности. Затем функция начала поднимать socket.error: [Errno 104] Connection reset by peer
. Эта ошибка должна была быть обнаружена, и, возможно, на ее месте должно появиться URLGrabberError.
Я использую Python 2.6.4.
Кто-нибудь знает способ решения этих проблем с помощью URLGrabber или знает другой способ добиться того, что мне нужно, с помощью другой библиотеки?