Как я могу замедлить работу request.get () для веб-страниц? - PullRequest
0 голосов
/ 18 июня 2019

Я пытаюсь отсканировать сайт owler.com.У меня уже есть список компаний, и все, что я пытаюсь получить, - это их предполагаемый доход, количество сотрудников и местонахождение штаб-квартиры.Теперь я не пытаюсь спамить сайт или что-то в этом роде, я не против, если мне потребуется час или больше, чтобы получить всю информацию с более медленными запросами, я просто не хочу копировать и вставлять вручную, потому что этоочень утомительно.

Я не спамил ни одного запроса, я только что сделал один для тестирования, и в итоге я удалил страницу "Обнаружена аномалия", которая говорит: "Вы продвинутый пользователь, перемещающийся по этому сайту со сверхчеловеческой скоростью«.Что означает, что мне фактически отказали.Если я что-то не упустил, я не могу включить режим сна где-то внутри функции «get ()», потому что он «как есть».Я пробовал библиотеку urllib как альтернативу «запросам».Однако, когда я пытаюсь разобраться с этой библиотекой, я получаю сообщение «Ошибка HTTP 405: не разрешено»

import bs4
from bs4 import BeautifulSoup as bs
from requests import get
import time

company = "Rockstar Games"
company = company.lower()

my_url1 = 'https://www.owler.com/company/'+ company.replace(" ", "")

time.sleep(1)
response = get(my_url1)
print("Opening "+my_url1)
print(response.text)

#This is all my code, I used nothing else and I didn't use any loops or spammed anything, I only accessed it once.

Я ожидаю, что вернусь на страницу, чтобы получить доступ к элементам и получить данные вэто, но вместо этого я получаю страницу с картинкой.Как я уже сказал, я намерен не спамить их веб-сайт, а просто автоматизировать то, что обычно занимало бы у меня 2 дня и убило бы много клеток мозга, если бы я делал это вручную.

...