Невозможно успешно запустить 2 паука один за другим в скрапе, используя скрипт - PullRequest
0 голосов
/ 28 января 2020

Я пытаюсь запустить скрипт в соответствии с этими требованиями:

  1. После запуска скрипта demo10.py AmazonfeedSpider будет сканировать информацию о продукте, используя сгенерированные URL-адреса, сохраненные в Purl, и сохранить вывод в файл набора данных2. json

  2. После успешного сканирования и сохранения данных в файл набора данных 2. json, ProductfeedSpider запустится и соберет 5 URL-адресов, возвращенных Final_Product ( ) метод CompareString Class ..

  3. Наконец, после получения окончательного списка product_url из класса Comparestring4, ProductfeedSpider удалит данные из возвращенного списка URL и сохранит результат в Fproduct. json file.

Вот файл demo10.py:

import scrapy
from scrapy.crawler import CrawlerProcess
from AmazonScrap.spiders.Amazonfeed2 import AmazonfeedSpider
from scrapy.utils.project import  get_project_settings
from AmazonScrap.spiders.Productfeed import ProductfeedSpider
import time
# from multiprocessing import Process


# def CrawlAmazon():


def main():
    process1 = CrawlerProcess(settings=get_project_settings())
    process1.crawl(AmazonfeedSpider)
    process1.start()
    process1.join()
    # time.sleep(20)
    process2 = CrawlerProcess(settings=get_project_settings())
    process2.crawl(ProductfeedSpider)
    process2.start()
    process2.join()


if __name__ == "__main__":
    main()

После запуска файла он вызывает исключение во время компиляции и сообщает, что набор данных. json file не существует Нужно ли использовать многопроцессорность, чтобы создать задержку между пауками? тогда как я могу это реализовать?

Я с нетерпением жду ответа от экспертов

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...