Для всех
Я пишу код для очистки заголовков статей из определенного c пользовательского новостного канала (подумайте, reddit, но для финансов). Я использую urllib для запроса базового url, а затем я l oop через серию статей, найденных из этой базы, т.е. я начну с определенного пользователя c, а затем l oop через каждую статью, которую они опубликовали.
url = 'http:XXXXXXXXXXXXX'+some_looped_value
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7',}
request = urllib.request.Request(url,None,headers)
response = urllib.request.urlopen(request)
Этот блок кода является просто кодом, который я использую для доступа к данным статьи. Код работает большую часть времени. Более конкретно, я смогу просмотреть около 10 статей на пользователя, прежде чем я получу 403 Запрещенных сообщения об ошибках. Я попытался изменить заголовок User-Agent на различные значения без какой-либо удачи. Я понимаю, что эта ошибка 403 Forbidden распространена у стандартных веб-браузеров / сканеров / любого веб-бота, который использует urllib и интересуется, есть ли какие-нибудь хорошие обходные пути / другие библиотеки, которые вы все можете порекомендовать.