Python Web Scraping: продолжайте работать с ошибкой 403 во время цикла - PullRequest
0 голосов
/ 27 марта 2020

Для всех

Я пишу код для очистки заголовков статей из определенного c пользовательского новостного канала (подумайте, reddit, но для финансов). Я использую urllib для запроса базового url, а затем я l oop через серию статей, найденных из этой базы, т.е. я начну с определенного пользователя c, а затем l oop через каждую статью, которую они опубликовали.

url = 'http:XXXXXXXXXXXXX'+some_looped_value

headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7',}

request = urllib.request.Request(url,None,headers)

response = urllib.request.urlopen(request)

Этот блок кода является просто кодом, который я использую для доступа к данным статьи. Код работает большую часть времени. Более конкретно, я смогу просмотреть около 10 статей на пользователя, прежде чем я получу 403 Запрещенных сообщения об ошибках. Я попытался изменить заголовок User-Agent на различные значения без какой-либо удачи. Я понимаю, что эта ошибка 403 Forbidden распространена у стандартных веб-браузеров / сканеров / любого веб-бота, который использует urllib и интересуется, есть ли какие-нибудь хорошие обходные пути / другие библиотеки, которые вы все можете порекомендовать.

...