Ваша проблема исходит из этой строки:
host,path = urlparse.urlsplit(turl)[1:3]
Вы пропускаете строку запроса. Таким образом, в примере журнала, который вы предоставляете, второй HEAD
запрос, который вы сделаете, будет на http://www.cbtrends.com/get-product.html
без параметров GET. Откройте этот URL в вашем браузере, и вы увидите, что он перенаправляет на http://www.cbtrends.com/
.
Вы должны рассчитать путь, используя все элементы кортежа, возвращаемые urlsplit
.
parts = urlparse.urlsplit(turl)
host = parts[1]
path = "%s?%s#%s" % parts[2:5]