ускорить Python Scrapy Crawler - PullRequest
0 голосов
/ 02 ноября 2019

В настоящее время я пишу скребок вакансий с помощью Scrapy, чтобы проанализировать около 3 млн. Вакансий. Теперь я нахожусь на месте, когда паук работает и успешно очищает элементы и хранит их в пост Postgreesql, но дело в том, что он делает это довольно медленно. В течение 1 часа я хранил только 12 тыс. Вакансий, поэтому я действительно далеко от 3 млн. Из них. Дело в том, что в конце мне нужно будет чистить и обновлять данные один раз в день, а с текущей производительностью мне понадобится больше, чем день, чтобы просто проанализировать все данные.

Я новичок в данныхя могу сделать что-то не так и буду очень признателен, если кто-нибудь сможет мне помочь.

Код моего паука:

import scrapy
import urllib.request
from lxml import html
from ..items import JobItem


class AdzunaSpider(scrapy.Spider):
    name = "adzuna"

    start_urls = [
            'https://www.adzuna.ru/search?loc=136073&pp=10'
        ]

    def parse(self, response):

        job_items = JobItem()

        items = response.xpath("//div[@class='sr']/div[@class='a']")

        def get_redirect(url):
            response = urllib.request.urlopen(url)
            response_code = response.read()
            result = str(response_code, 'utf-8')
            root = html.fromstring(result)
            final_url = root.xpath('//p/a/@href')[0]
            final_final_url = final_url.split('?utm', 1)[0]
            return final_final_url

        for item in items:
            id = None
            data_aid = item.xpath(".//@data-aid").get()
            redirect = item.xpath(".//h2/a/@href").get()
            url = get_redirect(redirect)
            url_header = item.xpath(".//h2/a/strong/text()").get()
            if item.xpath(".//p[@class='as']/@data-company-name").get() == None:
                company = item.xpath(".//p[@class='as']/text()").get()
            else:
                company = item.xpath(".//p[@class='as']/@data-company-name").get()
            loc = item.xpath(".//p/span[@class='loc']/text()").get()
            text = item.xpath(".//p[@class='at']/span[@class='at_tr']/text()").get()
            salary = item.xpath(".//p[@class='at']/span[@class='at_sl']/text()").get()

            job_items['id'] = id
            job_items['data_aid'] = data_aid
            job_items['url'] = url
            job_items['url_header'] = url_header
            job_items['company'] = company
            job_items['loc'] = loc
            job_items['text'] = text
            job_items['salary'] = salary

            yield job_items

        next_page = response.css("table.pg td:last-child ::attr('href')").get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

1 Ответ

1 голос
/ 03 ноября 2019
  1. Использование индексов в вашей таблице
  2. Вставка в BULK вместо вставки один за другим
  3. Минимизация использования meta в ваших Request
  4. Используйте кортеж вместо списка, где это возможно
  5. Установите CONCURRENT_ITEMS=100, установив его на более высокое значение, уменьшите производительность
  6. Попробуйте использовать меньше Middlewares и Pipielines
  7. Установите AUTOTHROTTLE_ENABLED=False в настройках.py
  8. Установить TELNETCONSOLE_ENABLED=False в settings.py
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...