Не удается получить значения Json из экспортированных данных с помощью scrapy - PullRequest
0 голосов
/ 11 декабря 2019

Я выполняю процесс с двумя пауками для сканирования страницы, но получаю пустой выходной файл json.

Код выглядит следующим образом:

Spiders.py

import scrapy
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from datetime import datetime
import uuid
from BourseCrawler.items import IndiceItem, FirmsItem
import json
from datetime import time


class FirmsSetSpider(scrapy.Spider):
    # first spider


class IndiceSetSpider(scrapy.Spider):
    # second spider 



# To get the output in a CSV Format
settings = get_project_settings()


process = CrawlerProcess(settings)
process.crawl(FirmsSetSpider)
process.crawl(IndiceSetSpider)
process.start()  # the script will block here until all crawling jobs are finished # noqa


Я также отредактировал папку с настройками settings.py

ITEM_PIPELINES = {
    'BourseCrawler.pipelines.JsonWriterPipeline': 300,
 }

И добавил JSON Pieline

pipelines.py

import json


class JsonWriterPipeline(object):

    def open_spider(self, spider):
        self.file = open('scrape_1.json', 'w')

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

    def close_spider(self, spider):
        self.file.close()
...