Question

Я использую python для получения данных HTML с нескольких страниц по URL. Я обнаружил, что urllib выдает исключение, когда URL не существует. Как получить HTML-код этой пользовательской страницы ошибки 404 (страницы, на которой написано что-то вроде «Страница не найдена»)

Текущий код:

try:
    req = Request(URL, headers={'User-Agent': 'Mozilla/5.0'})
    client = urlopen(req)

    #downloading html data
    page_html = client.read()

    #closing connection
    client.close()
except:
    print("The following URL was not found. Program terminated.\n" + URL)
    break

Derwent · Answer 1 · 04 ноября 2018

Вы пробовали библиотеку requests?

Просто установите библиотеку с помощью pip

pip install requests

И используйте это так

import requests

response = requests.get('https://stackoverflow.com/nonexistent_path')
print(response.status_code) # 404
print(response.text) # Prints the raw HTML response

Как получить HTML-содержимое страницы с ошибкой 404, используя python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить HTML-содержимое страницы с ошибкой 404, используя python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов