Я локально протестировал следующего паука:
from scrapy.spiders import XMLFeedSpider
class MySpider(XMLFeedSpider):
name = 'testing'
allowed_domains = ['www.cityblueshop.com']
start_urls = ['https://www.cityblueshop.com/sitemap_products_1.xml']
namespaces = [('n', 'http://www.sitemaps.org/schemas/sitemap/0.9')]
itertag = 'n:url'
iterator = 'xml'
def parse_node(self, response, node):
yield {'url': node.xpath('.//n:loc/text()').get()}
Для запуска требуется менее 3 секунд, включая запуск ядра Scrapy и все.
Пожалуйста, убедитесь, что время не потраченогде-то еще, например, в модуле learning
, из которого вы импортируете свой подкласс элемента.