Question

То, что я пытаюсь сделать здесь, это получить заголовки данного URL, чтобы я мог определить тип MIME. Я хочу видеть, вернет ли http://somedomain/foo/ документ HTML или изображение JPEG, например. Таким образом, мне нужно выяснить, как отправить запрос HEAD, чтобы я мог прочитать тип MIME без необходимости загружать контент. Кто-нибудь знает простой способ сделать это?

doshea · Answer 1 · 15 января 2010

urllib2 может использоваться для выполнения запроса HEAD. Это немного лучше, чем использование httplib, поскольку urllib2 анализирует URL-адрес вместо вас, вместо того, чтобы требовать разделения URL-адреса на имя хоста и путь.

>>> import urllib2
>>> class HeadRequest(urllib2.Request):
...     def get_method(self):
...         return "HEAD"
... 
>>> response = urllib2.urlopen(HeadRequest("http://google.com/index.html"))

Заголовки доступны через response.info (), как и раньше. Интересно, что вы можете найти URL, на который вы были перенаправлены:

>>> print response.geturl()
http://www.google.com.au/index.html

Eevee · Answer 2 · 20 сентября 2008

edit : Этот ответ работает, но в настоящее время вы должны просто использовать библиотеку запросы , как указано в других ответах ниже.

Использовать httplib .

>>> import httplib
>>> conn = httplib.HTTPConnection("www.google.com")
>>> conn.request("HEAD", "/index.html")
>>> res = conn.getresponse()
>>> print res.status, res.reason
200 OK
>>> print res.getheaders()
[('content-length', '0'), ('expires', '-1'), ('server', 'gws'), ('cache-control', 'private, max-age=0'), ('date', 'Sat, 20 Sep 2008 06:43:36 GMT'), ('content-type', 'text/html; charset=ISO-8859-1')]

Существует также getheader(name) для получения определенного заголовка.

K Z · Answer 3 · 21 октября 2012

Обязательный Requests способ:

import requests

resp = requests.head("http://www.google.com")
print resp.status_code, resp.text, resp.headers

Paweł Prażak · Answer 4 · 12 декабря 2010

Просто:

import urllib2
request = urllib2.Request('http://localhost:8080')
request.get_method = lambda : 'HEAD'

response = urllib2.urlopen(request)
response.info().gettype()

Редактировать: я только что понял, что есть httplib2: D

import httplib2
h = httplib2.Http()
resp = h.request("http://www.google.com", 'HEAD')
assert resp[0]['status'] == 200
assert resp[0]['content-type'] == 'text/html'
...

текст ссылки

Octavian Damiean · Answer 5 · 15 марта 2013

Для полноты, чтобы получить ответ Python3, эквивалентный принятому ответу, используйте httplib .

Это в основном тот же код, только библиотека больше не называется httplib , а http.client

from http.client import HTTPConnection

conn = HTTPConnection('www.google.com')
conn.request('HEAD', '/index.html')
res = conn.getresponse()

print(res.status, res.reason)

Pranay Agarwal · Answer 6 · 10 февраля 2012

import httplib
import urlparse

def unshorten_url(url):
    parsed = urlparse.urlparse(url)
    h = httplib.HTTPConnection(parsed.netloc)
    h.request('HEAD', parsed.path)
    response = h.getresponse()
    if response.status/100 == 3 and response.getheader('Location'):
        return response.getheader('Location')
    else:
        return url

IgorGanapolsky · Answer 7 · 13 апреля 2010

Я обнаружил, что httplib немного быстрее, чем urllib2. Я рассчитал две программы - одну с использованием httplib, а другую с использованием urllib2 - отправку HEAD-запросов на 10000 URL. Httplib один был быстрее на несколько минут. Общая статистика httplib была: настоящая 6m21.334s пользователь 0m2.124s sys 0m16.372s

And urllib2 Общая статистика была: настоящая 9m1.380s пользователь 0m16.666s sys 0m28.565s

Кто-нибудь еще имеет информацию по этому поводу?

Miguel A. Friginal · Answer 8 · 23 апреля 2009

Кроме того, при использовании httplib (по крайней мере, на 2.5.2) попытка прочитать ответ на запрос HEAD заблокирует (на readline) и впоследствии завершится неудачей. Если вы не выполните чтение в ответе, вы не можете отправить еще один запрос на соединение, вам нужно будет открыть новый. Или примите большую задержку между запросами.

estani · Answer 9 · 06 июня 2013

И еще один подход (похожий на ответ Павла):

import urllib2
import types

request = urllib2.Request('http://localhost:8080')
request.get_method = types.MethodType(lambda self: 'HEAD', request, request.__class__)

Просто чтобы не иметь неограниченных методов на уровне экземпляра.

Как отправить HTTP-запрос HEAD в Python 2?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как отправить HTTP-запрос HEAD в Python 2?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы