Я работаю с библиотекарем для реструктуризации архива цифровой фотографии его организации.
Я построил робота Python с Механизация и BeautifulSoup длявытащить из коллекции около 7000 плохо структурированных и слегка некорректных / неполных документов.Данные будут отформатированы для электронной таблицы, которую он может использовать для ее исправления.Прямо сейчас я предполагаю, что в общей сложности 7500 HTTP-запросов будут составлять поисковый словарь, а затем собирать данные, не считая ошибок и повторов в моем коде, а затем еще много по ходу проекта.
Я предполагаю, что естьсвоего рода встроенный лимит в отношении того, как быстро я могу делать эти запросы, и даже если этого не произойдет, я заставлю своего робота задерживаться, чтобы вести себя вежливо с перегруженными веб-серверами.Мой вопрос (по общему признанию, невозможно ответить с полной точностью): о том, как быстро я могу сделать HTTP-запросы, прежде чем столкнуться со встроенным ограничением скорости?
Я бы предпочел не публиковать URLдля домена, который мы очищаем, но если это уместно, я спрошу моего друга, можно ли поделиться.
Примечание: я понимаю, что не лучший способ решить нашу проблему(реструктуризация / организация базы данных), но мы создаем доказательство концепции, чтобы убедить старших руководителей доверить моему другу копию базы данных, из которой он будет ориентироваться в бюрократии, необходимой для того, чтобы я могработать непосредственно с данными.
Они также дали нам API для канала ATOM, но для него требуется ключевое слово для поиска, и оно кажется бесполезным для пошагового просмотра каждой фотографии в конкретной коллекции.