Scrapy pipe только сохранить одну страницу результатов - PullRequest
0 голосов
/ 04 мая 2018

У меня есть паук для сканирования course_tal, в котором есть конвейер для сохранения двух типов предметов:

moocs.csv, который содержит данные курса. moocs_review.csv, который содержит данные отзывов.

Это код паука, который у меня есть:

import scrapy
from scrapy import  Request
from scrapy.loader import ItemLoader

from urlparse import urljoin 
from moocs.items import MoocsItem,MoocsReviewItem



class MoocsSpiderSpider(scrapy.Spider):
    name = "moocs_spider"
    #allowed_domains = ["https://www.coursetalk.com/subjects/data-science/courses"]
    start_urls = (
        'https://www.coursetalk.com/subjects/data-science/courses',
    )


    def parse(self, response):
        courses_xpath = '//*[@class="course-listing-card"]//a[contains(@href, "/courses/")]/@href'
        courses_url = [urljoin(response.url,relative_url)  for relative_url in response.xpath(courses_xpath).extract()]  
        for course_url in courses_url[0:3]:
            print course_url
            yield Request(url=course_url, callback=self.parse_reviews)
        next_page_url =   response.xpath('//*[@class="js-course-pagination"]//a[contains(@aria-label,"Next")]/@href').extract()
        yield Request(url=next_page_url, callback=self.parse)


    def parse_reviews(self, response):
        #print response.body
        l = ItemLoader(item=MoocsItem(), response=response)
        l.add_xpath('course_title', '//*[@class="course-header-ng__main-info__name__title"]//text()')
        l.add_xpath('course_description', '//*[@class="course-info__description"]//p/text()')
        l.add_xpath('course_instructors', '//*[@class="course-info__instructors__names"]//text()')
        l.add_xpath('course_key_concepts', '//*[@class="key-concepts__labels"]//text()')
        l.add_value('course_link', response.url)
        l.add_value('course_provider', response.url)
        l.add_xpath('course_cost', '//*[@class="course-details-panel__course-cost"]//text()')
        l.add_xpath('university', '//*[@class="course-info__school__name"]//text()[2]')
        #'//*[@class="course-info__school__name"]'
        item = l.load_item()

        for review in response.xpath('//*[@class="review-body"]'):
            r = ItemLoader(item=MoocsReviewItem(), response=response, selector=review)
            r.add_value('course_title', item['course_title'])
            r.add_xpath('review_body', './/div[@class="review-body__content"]//text()')
            r.add_xpath('course_stage', './/*[@class="review-body-info__course-stage--completed"]//text()')
            r.add_xpath('user_name', './/*[@class="review-body__username"]//text()')
            r.add_xpath('review_date', './/*[@itemprop="datePublished"]/@datetime')
            r.add_xpath('score', './/*[@class="sr-only"]//text()')

            yield r.load_item()

        yield item  

Который идет на каждую страницу курса и сохраняет детали в соответствующем пункте. У меня тут нумерация страниц:

    next_page_url =   response.xpath('//*[@class="js-course-pagination"]//a[contains(@aria-label,"Next")]/@href').extract()

Паук переходит на следующие страницы, но результат не сохраняется в выходном файле.

Я предполагаю, что проблема в конвейере, где создаются файлы:

class MultiCSVItemPipeline(object):
    CSVDir = '/moocs/scripts/moocs/moocs/'
    SaveTypes = ['moocs','moocsreview']

    def __init__(self):
        dispatcher.connect(self.spider_opened, signal=signals.spider_opened)
        dispatcher.connect(self.spider_closed, signal=signals.spider_closed)

    def spider_opened(self, spider):
        self.files = dict([ (name, open(CSVDir+name+'.csv','w+b')) for name in self.SaveTypes ])
        self.exporters = dict([ (name,CsvItemExporter(self.files[name])) for name in self.SaveTypes])
        [e.start_exporting() for e in self.exporters.values()]

    def spider_closed(self, spider):
        [e.finish_exporting() for e in self.exporters.values()]
        [f.close() for f in self.files.values()]

    def process_item(self, item, spider):
        what = item_type(item)
        if what in set(self.SaveTypes):
            self.exporters[what].export_item(item)
        return item

Ответы [ 2 ]

0 голосов
/ 04 мая 2018

Вы уверены, что паук правильно выполняет нумерацию страниц?

Когда вы делаете это:

next_page_url =   response.xpath('//*[@class="js-course-pagination"]//a[contains(@aria-label,"Next")]/@href').extract()

extract() возвращает список результатов, которые вы затем передаете в параметр url Request:

yield Request(url=next_page_url, callback=self.parse)

Но url должно быть строкой или значением Юникода, поэтому при выполнении этого будет выдана следующая ошибка:

TypeError: Request url must be str or unicode, got list:

Это можно решить с помощью метода extract_first(), и я бы также проверил, что значение не None:

next_page_url =   response.xpath('//*[@class="js-course-pagination"]//a[contains(@aria-label,"Next")]/@href').extract_first()
if next_page_url:
    yield Request(url=next_page_url) # parse is the callback by default

Пожалуйста, попробуйте это и скажите мне, если это решило вашу проблему

0 голосов
/ 04 мая 2018

Если вы используете -t csv, это тоже подойдет. вместо конвейера

scrapy crawl moocs -t csv -o moocs.csv --loglevel=INFO

Это автоматически создаст файл в папке паука.

...