Question

Я пытаюсь очистить веб-сайт, и когда я делаю это, я получаю результат ниже. Есть ли способ, которым я могу почистить этот сайт?

url = "https://www.mustang6g.com/forums/threads/pre-collision-alert-system.132807/"

page = requests.get(url)
soup = BeautifulSoup(page.text, 'html.parser')
print(soup)

Вывод вышеуказанного кода выглядит следующим образом

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">

<html><head>
<title>403 Forbidden</title>
</head><body>
<h1>Forbidden</h1>
<p>You don't have permission to access this resource.</p>
</body></html>

Prayson W. Daniel · Answer 1 · 24 марта 2020

Сервер веб-сайта ожидал передачи заголовка:

import requests

headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) '\
           'AppleWebKit/537.36 (KHTML, like Gecko) '\
           'Chrome/75.0.3770.80 Safari/537.36'}

URL = 'https://www.mustang6g.com/forums/threads/pre-collision-alert-system.132807/'


httpx = requests.get(URL, headers=headers)

print(httpx.text)

Передав заголовок, мы сообщили серверу, что являемся Mozilla :)

У вас нет прав для доступа к этому ресурсу Python webscrapping

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

У вас нет прав для доступа к этому ресурсу Python webscrapping

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов