Загружайте URL, только если это HTML-страница - PullRequest
0 голосов
/ 17 марта 2012

Я хочу написать скрипт Python, который загружает веб-страницу, только если веб-страница содержит HTML.Я знаю, что будет использоваться content-type в header.Пожалуйста, предложите как-нибудь это сделать, так как я не могу получить header до загрузки файла.

1 Ответ

2 голосов
/ 17 марта 2012

Используйте http.client для отправки запроса HEAD на URL. Это вернет только заголовки для ресурса, тогда вы можете посмотреть заголовок content-type и посмотреть, если он text/html. Если это так, отправьте запрос GET на URL, чтобы получить тело.

...