Я пытаюсь получить информацию со страницы arXiv с помощью scrapy , но не могу выбрать "элементы" на их xml странице :
from scrapy.spider import BaseSpider
from scrapy.selector import XmlXPathSelector
class arXivSpider(BaseSpider):
name = "arxiv"
allowed_domains = ["arxiv.org"]
start_urls = ["http://export.arxiv.org/rss/hep-th/recent"]
def parse(self, response):
xxs = XmlXPathSelector(response)
papers = xxs.select('//item')
print papers
Объект item довольно прост, если бы я мог извлечь его ...
<item rdf:about="http://arxiv.org/abs/1112.5754">
<title>blah blah ... blah</title>
<link>http://arxiv.org/abs/1112.5754</link>
<description rdf:parseType="Literal"><p>...</p></description>
<dc:creator>blah, blah blah</dc:creator>
</item>
Сценарий работает отлично, просто papers = []
, поэтому паук не собирает item
. Возможно, придется делать ж / пространства имен ...