Я пытаюсь запустить скрипт в соответствии с этими требованиями:
После запуска скрипта demo10.py AmazonfeedSpider будет сканировать информацию о продукте, используя сгенерированные URL-адреса, сохраненные в Purl, и сохранить вывод в файл набора данных2. json
После успешного сканирования и сохранения данных в файл набора данных 2. json, ProductfeedSpider запустится и соберет 5 URL-адресов, возвращенных Final_Product ( ) метод CompareString Class ..
Наконец, после получения окончательного списка product_url из класса Comparestring4, ProductfeedSpider удалит данные из возвращенного списка URL и сохранит результат в Fproduct. json file.
Вот файл demo10.py:
import scrapy
from scrapy.crawler import CrawlerProcess
from AmazonScrap.spiders.Amazonfeed2 import AmazonfeedSpider
from scrapy.utils.project import get_project_settings
from AmazonScrap.spiders.Productfeed import ProductfeedSpider
import time
# from multiprocessing import Process
# def CrawlAmazon():
def main():
process1 = CrawlerProcess(settings=get_project_settings())
process1.crawl(AmazonfeedSpider)
process1.start()
process1.join()
# time.sleep(20)
process2 = CrawlerProcess(settings=get_project_settings())
process2.crawl(ProductfeedSpider)
process2.start()
process2.join()
if __name__ == "__main__":
main()
После запуска файла он вызывает исключение во время компиляции и сообщает, что набор данных. json file не существует Нужно ли использовать многопроцессорность, чтобы создать задержку между пауками? тогда как я могу это реализовать?
Я с нетерпением жду ответа от экспертов