Question

Я пытаюсь проанализировать sitemap.xml файлы с использованием scrapy, файлы карты сайта похожи на следующий, содержащий гораздо больше url узлов.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
        xmlns:video="http://www.sitemaps.org/schemas/sitemap-video/1.1">
    <url>
        <loc>
            http://www.site.com/page.html
        </loc>
        <video:video>
            <video:thumbnail_loc>
                http://www.site.com/thumb.jpg
            </video:thumbnail_loc>
            <video:content_loc>http://www.example.com/video123.flv</video:content_loc>
            <video:player_loc allow_embed="yes" autoplay="ap=1">
                http://www.example.com/videoplayer.swf?video=123
            </video:player_loc>
            <video:title>here is the page title</video:title>
            <video:description>and an awesome description</video:description>
            <video:duration>302</video:duration>
            <video:publication_date>2011-02-24T02:03:43+02:00</video:publication_date>
            <video:tag>w00t</video:tag>
            <video:tag>awesome</video:tag>
            <video:tag>omgwtfbbq</video:tag>
            <video:tag>kthxby</video:tag>
        </video:video>
    </url>
</urlset>

Я посмотрел на связанные scrapy'sдокументацию , и я написал следующий фрагмент, чтобы проверить, правильно ли я поступаю (а мне кажется, что нет ^^):

class SitemapSpider(XMLFeedSpider):
    name = "sitemap"
    namespaces = [
        ('', 'http://www.sitemaps.org/schemas/sitemap/0.9'),
        ('video', 'http://www.sitemaps.org/schemas/sitemap-video/1.1'),
    ]
    start_urls = ["http://example.com/sitemap.xml"]
    itertag = 'url'

    def parse_node(self, response, node):
        print "Parsing: %s" % str(node)

Но когда я запускаю паука, я получаюэта ошибка:

File "/.../python2.7/site-packages/scrapy/utils/iterators.py", line 32, in xmliter
    yield XmlXPathSelector(text=nodetext).select('//' + nodename)[0]
    exceptions.IndexError: list index out of range

Мне кажется, я не определяю пространство имен "по умолчанию" (http://www.sitemaps.org/schemas/sitemap/0.9) правильно, но не могу найти, как это сделать.

Как правильно перебрать узлы url и затем извлечь необходимую информацию из дочерних элементов?

ОТВЕТ:

К сожалению,я не смог использовать XMLFeedSpider (который должен быть способом синтаксического анализа XML с scrapy), но благодаря ответу simplebias, я смог найти способ добиться этого "старогошкольный путь ". Я придумал следующий код (который работает, на этот раз!):

class SitemapSpider(BaseSpider):
    name = 'sitemap'
    namespaces = {
        'sitemap': 'http://www.sitemaps.org/schemas/sitemap/0.9',
        'video': 'http://www.sitemaps.org/schemas/sitemap-video/1.1',
    }

    def parse(self, response):
        xxs = XmlXPathSelector(response)
        for namespace, schema in self.namespaces.iteritems():
            xxs.register_namespace(namespace, schema)
        for urlnode in xxs.select('//sitemap:url'):
            extract_datas_here()

samplebias · Answer 1 · 09 апреля 2011

Scrapy использует lxml / libxml2 под капотом, в конечном итоге вызывая метод node.xpath() для выбора.Любые элементы в вашем выражении xpath, которые имеют пространство имен, должны иметь префикс, и вы должны передать отображение, чтобы сообщить селектору, к какому пространству имен относится каждый префикс.

Вот пример, иллюстрирующий, как отображать префиксы в пространства имен при использованииnode.xpath() метод:

doc = '<root xmlns="chaos"><bar /></root>'
tree = lxml.etree.fromstring(doc)
tree.xpath('//bar')
[]
tree.xpath('//x:bar', namespaces={'x': 'chaos'})
[<Element {chaos}bar at 7fa40f9c50a8>]

Не используя этот класс scrap XMLFeedSpider, я предполагаю, что ваша карта пространства имен и тег itertag должны следовать той же схеме:

class SitemapSpider(XMLFeedSpider):
    namespaces = [
        ('sm', 'http://www.sitemaps.org/schemas/sitemap/0.9'),
        ]
     itertag = 'sm:url'

jmunsch · Answer 2 · 21 июня 2012

Я обнаружил, что разница между hxs и xxs была полезной. Мне было трудно найти объект xxs. Я пытался использовать это

x = XmlXPathSelector(response)

Когда они работали намного лучше для того, что мне было нужно.

hxs.select('//p/text()').extract()

или

xxs.select('//title/text()').extract()

Как проанализировать файл sitemap.xml, используя scml XmlFeedSpider?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как проанализировать файл sitemap.xml, используя scml XmlFeedSpider?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы