Выполнение множества запросов на получение - PullRequest
0 голосов
/ 06 мая 2020

Я пишу программу python, которая использует beautifulsoup для удаления ссылки на изображение с веб-сайта, а затем категоризации изображения. Веб-сайт размещает свои изображения на отдельных страницах в указанном формате URL: (website.com/(az)(az)(0-9)(0-9)(0-9)(0-9) Это означает номер возможных URL-адресов очень высоки (+1 миллион). Я боюсь, что если я сделаю запрос на получение сайта столько раз, это может нанести вред сайту или подвергнуть меня юридической опасности. Как я могу очистить наибольшее количество URL-адресов Не повредив сайт и не создав у себя проблем с законом? Пожалуйста, дайте мне знать, если вам нужна дополнительная информация. Спасибо!

PS Я оставил псевдокод того, что делает мой код ниже, если это поможет.

PSS Извините, если формат странный или неправильный, я отправляю с мобильного

For url in urlPossibilities:
   Request.get(url)
   UrlLink = FindImgLink(url)
   Categorize(urlLink)

1 Ответ

0 голосов
/ 06 мая 2020

Несколько вариантов, которые я могу придумать ...

1) Есть ли способ получить список URL-адресов этих изображений? Например, карта сайта или страница с большим их списком. Это был бы предпочтительный способ, поскольку, используя этот список, вы можете очистить только то, о чем вы знаете. Основываясь на вашем вопросе, я считаю, что это маловероятно, но если у вас есть один URL, нет ли возможности работать в обратном направлении и найти больше?

2) Есть ли шаблон для именования изображений? Буквы могут быть случайными, но числа могут постепенно увеличиваться. Например, AA0001 и AA0002 могут существовать, но для префикса AA может не быть других изображений?

3) Ответственный очиститель - если имя в этой структуре действительно случайное и у вас нет другого выбора, кроме пробуйте все URL, пока не получите хит, делайте это ответственно Уважайте robot.txt и ограничивайте количество запросов.

...