Как я могу правильно запустить Scrapy Spiders из внешнего python сценария и получить вывод его элемента - PullRequest
0 голосов
/ 06 марта 2020

Итак, я делаю пару скребков и сейчас пытаюсь создать скрипт, который запускает соответствующих пауков с URL-адресами, собранными из БД, но я не могу найти способ сделать это.

У меня есть это в моем пауке:

class ElCorteIngles(scrapy.Spider):
name = 'ElCorteIngles'
url = ''
DEBUG = False

def start_requests(self):
    if self.url != '':
        yield scrapy.Request(url=self.url, callback=self.parse)

def parse(self, response):
    # Get product name
    try:
        self.p_name = response.xpath('//*[@id="product-info"]/h2[1]/a/text()').get()
    except:
        print(f'{CERROR} Problem while getting product name from website - {self.name}')

    # Get product price
    try:
        self.price_no_cent = response.xpath('//*[@id="price-container"]/div/span[2]/text()').get()
        self.cent = response.xpath('//*[@id="price-container"]/div/span[2]/span[1]/text()').get()
        self.currency = response.xpath('//*[@id="price-container"]/div/span[2]/span[2]/text()').get()
        if self.currency == None:
            self.currency = response.xpath('//*[@id="price-container"]/div/span[2]/span[1]/text()').get()
            self.cent = None
    except:
        print(f'{CERROR} Problem while getting product price from website - {self.name}')

    # Join self.price_no_cent with self.cent
    try:
        if self.cent != None:
            self.price = str(self.price_no_cent) + str(self.cent)
            self.price = self.price.replace(',', '.')
        else:
            self.price = self.price_no_cent
    except:
        print(f'{ERROR} Problem while joining price with cents - {self.name}')

    # Return data
    if self.DEBUG == True:
        print([self.p_name, self.price, self.currency])

    data_collected = ShopScrapersItems()
    data_collected['url'] = response.url
    data_collected['p_name'] = self.p_name
    data_collected['price'] = self.price
    data_collected['currency'] = self.currency

    yield data_collected

Обычно, когда я запускаю паука из консоли, я делаю:

scrapy crawl ElCorteIngles -a url='https://www.elcorteingles.pt/electrodomesticos/A26601428-depiladora-braun-senso-smart-5-5500/'

, и теперь мне нужен способ сделать то же самое на внешний скрипт и получить вывод yield data_collected

То, что у меня сейчас есть во внешнем скрипте, таково:

import scrapy
from scrapy.crawler import CrawlerProcess
import sqlalchemy as db
# Import internal libraries
from Ruby.Ruby.spiders import *

# Variables
engine = db.create_engine('mysql+pymysql://DATABASE_INFO')

class Worker(object):

    def __init__(self):
        self.crawler = CrawlerProcess({})

    def scrap_new_links(self):
        conn = engine.connect()

        # Get all new links from DB and scrap them
        query = 'SELECT * FROM Ruby.New_links'
        result = conn.execute(query)
        for x in result:
            telegram_id = x[1]
            email = x[2]
            phone_number = x[3]
            url = x[4]
            spider = x[5]

            # In this cade the spider will be ElCorteIngles and
            # the url https://www.elcorteingles.pt/electrodomesticos/A26601428-depiladora- 
            # braun-senso-smart-5-5500/'

            self.crawler.crawl(spider, url=url)
            self.crawler.start()

Worker().scrap_new_links()

Я также не знаю, выполняю ли url=url в self.crawler.crawl() это правильный способ дать URL пауку, но дайте мне знать, что вы думаете. Все данные из yield возвращаются конвейером. Я думаю, что нет необходимости в дополнительной информации, но если вам нужно, просто дайте мне знать!

Ответы [ 2 ]

1 голос
/ 06 марта 2020

Scrapy работает асинхронно ... игнорируйте мой импорт, но это JSON API, который я сделал для scrapy. Вам нужно создать собственный бегун с сигналом item_scraped. Изначально существовала конечная точка klein, и когда паук заканчивал, он возвращал список JSON. Я думаю, что это то, что вы хотите, но без конечной точки Klein, поэтому я снял это. Моим пауком был GshopSpider. Я заменил его на имя вашего паука.

Используя преимущество отложенного вызова, мы можем использовать обратные вызовы и посылать сигналы каждый раз, когда элемент очищается. Таким образом, используя этот код, мы собираем каждый элемент в список с сигналом, и когда паук завершает работу, у нас есть функция обратного вызова return_spider_output

# server.py
import json

from scrapy import signals
from scrapy.crawler import CrawlerRunner

from googleshop.spiders.gshop import GshopSpider
from scrapy.utils.project import get_project_settings


class MyCrawlerRunner(CrawlerRunner):
    def crawl(self, crawler_or_spidercls, *args, **kwargs):
        # keep all items scraped
        self.items = []

        crawler = self.create_crawler(crawler_or_spidercls)

        crawler.signals.connect(self.item_scraped, signals.item_scraped)

        dfd = self._crawl(crawler, *args, **kwargs)

        dfd.addCallback(self.return_items)
        return dfd

    def item_scraped(self, item, response, spider):
        self.items.append(item)

    def return_items(self, result):
        return self.items


def return_spider_output(output):
    return json.dumps([dict(item) for item in output])


if __name__=="__main__"
    settings = get_project_settings()
    runner = MyCrawlerRunner(settings)
    spider = ElCorteIngles()
    deferred = runner.crawl(spider)
    deferred.addCallback(return_spider_output)
    return deferred
0 голосов
/ 06 марта 2020

Самый простой способ сделать это будет примерно так:

class ElCorteIngles(scrapy.Spider):
    name = 'ElCorteIngles'
    url = ''
    DEBUG = False

    def __init__(self):
        super().__init__(self, **kwargs)

        # Establish your db connection here. This can be any database connection.
        # Reuse this connection object anywhere else
        self.conn = conn = engine.connect()

    def start_requests(self):
        with self.conn.cursor() as cursor:
            cursor.execute('''SELECT * FROM Ruby.New_links WHERE url NOT NULL OR url != %s''', ('',))
            result = cursor.fetchall()
         for url in result:
             yield scrapy.Request(url=url, dont_filter=True, callback=self.parse)
    def parse(self):

        # Your Parse code here

После этого вы можете запустить этот сканер, используя что-то вроде этого

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from project_name.spiders.filename import ElCorteIngles


process = CrawlerProcess(get_project_settings())
process.crawl(ElCorteIngles)
process.start()

Надеюсь, это поможет.

Я бы также порекомендовал вам иметь очередь, если вы работаете с большим количеством URL. Это позволит нескольким процессам-паукам работать над этими URL-адресами параллельно. Вы можете инициировать очередь в методе init .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...