Scrapy должен автоматически разархивировать сжатый контент.
См. Ответственный код в contrib / spiders / sitemap.py
if isinstance(response, XmlResponse):
body = response.body
elif is_gzipped(response):
body = gunzip(response.body)
else:
log.msg("Ignoring non-XML sitemap: %s" % response, log.WARNING)
return
Я думаю, что либо XML имеет неправильный формат, либо файл не содержит правильных заголовков. Я предлагаю попробовать тот же паук на карте сайта, в которой вы уверены, что он форматирует.
Если вы хотите, чтобы я мог самостоятельно выполнить тестирование, если вы можете предоставить мне свой текущий код - это позволит мне дать вам лучший ответ: -).