Я не могу удалить веб-данные с данного веб-сайта с помощью Python. - PullRequest
0 голосов
/ 13 июня 2018

Привет, я пытаюсь удалить данные с сайта https://health.usnews.com/doctors/city-index/new-jersey.Я хочу, чтобы все название города и снова по ссылке утилизировать данные.Но с использованием библиотеки запросов в Python что-то идет не так.Есть некоторые сеансы или файлы cookie или что-то, что останавливает сканирование данных.пожалуйста, помогите мне.

>>> import requests
>>> url = 'https://health.usnews.com/doctors/city-index/new-jersey'
>>> html_content = requests.get(url)
>>> html_content.status_code
403
>>> html_content.content
'<HTML><HEAD>\n<TITLE>Access Denied</TITLE>\n</HEAD><BODY>\n<H1>Access Denied</H1>\n \nYou don\'t have permission to access "http&#58;&#47;&#47;health&#46;usnews&#46;com&#47;doctors&#47;city&#45;index&#47;new&#45;jersey" on this server.<P>\nReference&#32;&#35;18&#46;7d70b17&#46;1528874823&#46;3fac5589\n</BODY>\n</HTML>\n'
>>> 

Вот ошибка, которую я получаю.

Ответы [ 2 ]

0 голосов
/ 18 июня 2018

Прежде всего, как и в предыдущем предложенном ответе, я бы порекомендовал вам добавить заголовок к вашему коду, чтобы ваш код выглядел примерно так:

import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:60.0) Gecko/20100101 Firefox/60.0'}
url = 'https://health.usnews.com/doctors/city-index/new-jersey'
html_content = requests.get(url, headers=headers)
html_content.status_code
print(html_content.text)
0 голосов
/ 13 июня 2018

Вам необходимо добавить заголовок в свой запрос, чтобы сайт считал вас подлинным пользователем.

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
html_content = requests.get(url, headers=headers)
...