Я использую scrapy
в службе RSS (Google тренды, URL = https://trends.google.cl/trends/trendingsearches/daily/rss?geo=CL) с использованием XMLFeedSpider, но у меня возникли некоторые проблемы с некоторыми тегами,
в частности ht:
. Я получаю эту ошибку на теге ht
class RssGoogleTrends(XMLFeedSpider):
name = 'Google'
allowed_domain = ['https://trends.google.com']
start_urls = ['https://trends.google.com/trends/trendingsearches/daily/rss?geo=CL']
itertag = 'item'
def parse_node(self, response, node):
self.logger.info('Hi, this is a <%s> node!: %s', self.itertag, ''.join(node.getall()))
item = {}
item['id'] = node.xpath('title/text()',).extract_first()
item['link'] = node.xpath('link/text()',).extract_first() #define XPath for link
item['description'] = node.xpath('description/text()',).extract_first() #define XPath for description
item['pubDate'] = node.xpath('pubDate/text()',).extract_first()
item['approx_traffic'] = node.xpath('ht:approx_traffic/text()',).extract_first()
print(item)
return item
Спасибо за ваше время