Web Scraper: лимит запросов в минуту / час для одного домена? - PullRequest
3 голосов
/ 15 октября 2011

Я работаю с библиотекарем для реструктуризации архива цифровой фотографии его организации.

Я построил робота Python с Механизация и BeautifulSoup длявытащить из коллекции около 7000 плохо структурированных и слегка некорректных / неполных документов.Данные будут отформатированы для электронной таблицы, которую он может использовать для ее исправления.Прямо сейчас я предполагаю, что в общей сложности 7500 HTTP-запросов будут составлять поисковый словарь, а затем собирать данные, не считая ошибок и повторов в моем коде, а затем еще много по ходу проекта.

Я предполагаю, что естьсвоего рода встроенный лимит в отношении того, как быстро я могу делать эти запросы, и даже если этого не произойдет, я заставлю своего робота задерживаться, чтобы вести себя вежливо с перегруженными веб-серверами.Мой вопрос (по общему признанию, невозможно ответить с полной точностью): о том, как быстро я могу сделать HTTP-запросы, прежде чем столкнуться со встроенным ограничением скорости?

Я бы предпочел не публиковать URLдля домена, который мы очищаем, но если это уместно, я спрошу моего друга, можно ли поделиться.

Примечание: я понимаю, что не лучший способ решить нашу проблему(реструктуризация / организация базы данных), но мы создаем доказательство концепции, чтобы убедить старших руководителей доверить моему другу копию базы данных, из которой он будет ориентироваться в бюрократии, необходимой для того, чтобы я могработать непосредственно с данными.

Они также дали нам API для канала ATOM, но для него требуется ключевое слово для поиска, и оно кажется бесполезным для пошагового просмотра каждой фотографии в конкретной коллекции.

1 Ответ

4 голосов
/ 15 октября 2011

Нет встроенного ограничения скорости для HTTP.Большинство распространенных веб-серверов не настроены из коробки для ограничения скорости.Если ограничение скорости введено, администраторы веб-сайта почти наверняка установят его, и вам придется спросить их, что они настроили.

Некоторые поисковые системы уважают нестандартное расширениев robots.txt, который предлагает ограничение скорости, так что проверьте Crawl-delay в robots.txt.

HTTP имеет ограничение одновременных соединений ограничение двух соединений, но браузеры уже начали игнорироватьчто и предпринимаются усилия по пересмотру этой части стандарта, поскольку она довольно устарела.

...