Как очистить сайт несколькими страницами с помощью скрапа - PullRequest
2 голосов
/ 05 июля 2019

Я пытаюсь очистить этот сайт (который имеет несколько страниц), используя скрап.проблема в том, что я не могу найти URL следующей страницы.У вас есть идея о том, как очистить веб-сайт несколькими страницами (с помощью копий) или как устранить ошибку, которую я получаю с помощью своего кода?

Я попробовал приведенный ниже код, но он не работает:

class AbcdspiderSpider(scrapy.Spider):
    """
    Class docstring
    """
    name = 'abcdspider'
    allowed_domains = ['abcd-terroir.smartrezo.com']

    alphabet = list(string.ascii_lowercase)
    url = "https://abcd-terroir.smartrezo.com/n31-france/annuaireABCD.html?page=1&spe=1&anIDS=31&search="
    start_urls = [url + letter for letter in alphabet]

    main_url = "https://abcd-terroir.smartrezo.com/n31-france/"


    crawl_datetime = str(datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))
    start_time = datetime.datetime.now()

    def parse(self, response):
        self.crawler.stats.set_value("start_time", self.start_time)
        try:
            page = response.xpath('//div[@class="pageStuff"]/span/text()').get()
            page_max = get_num_page(page)

            for index in range(page_max):
                producer_list = response.xpath('//div[@class="clearfix encart_ann"]/@onclick').getall()
                for producer in producer_list:
                    link_producer = self.main_url + producer
                    yield scrapy.Request(url=link_producer, callback=self.parse_details)

                next_page_url = "/annuaireABCD.html?page={}&spe=1&anIDS=31&search=".format(index)

                if next_page_url is not None:
                    yield scrapy.Request(response.urljoin(self.main_url + next_page_url))

        except Exception as e:
            self.crawler.stats.set_value("error", e.args)

Я получаю эту ошибку:

'error': ('range() integer end argument expected, got unicode.',)

1 Ответ

2 голосов
/ 05 июля 2019

Ошибка здесь:

page = response.xpath('//div[@class="pageStuff"]/span/text()').get()
page_max = get_num_page(page)

Функция диапазона ожидала целочисленное значение (1,2,3,4 и т. Д.), А не строку Юникода ('Page 1/403')

Мое предложение об ошибке диапазона:

page = response.xpath('//div[@class="pageStuff"]/span/text()').get().split('/ ')[1]

for index in range(int(page)):
    #your actions
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...