Как я могу иметь внутри своего паука что-то, что будет извлекать какой-то URL, чтобы извлечь что-то со страницы через HtmlXPathSelector?Но URL - это то, что я хочу предоставить в виде строки внутри кода, а не ссылки для подражания.
Я попробовал что-то вроде этого:
req = urllib2.Request('http://www.example.com/' + some_string + '/')
req.add_header('User-Agent', 'Mozilla/5.0')
response = urllib2.urlopen(req)
hxs = HtmlXPathSelector(response)
, но в этот момент он выдаетисключение с:
[Failure instance: Traceback: <type 'exceptions.AttributeError'>: addinfourl instance has no attribute 'encoding'