Question

У меня есть следующий код для webscraping, написанный на python / scrapy:

# -*- coding: utf-8 -*-
import scrapy
from scrapy.crawler import CrawlerProcess
import requests

class HousesearchspiderSpider(scrapy.Spider):
    name = "housesearchspider"
    user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'
    download_delay = 10.0
    start_urls = [
        'https://www.website.com/filter1/filter2/',
    ]

        for detail in response.css('div.search-result-content'):

            yield {'price':detail.css('div.search-result-info search-result-info-price ::text').get(),
                   'size': detail.css('ul.search-result-kenmerken ::text').get(),
                   'postcode': detail.css('small.search-result-subtitle ::text').get(),
                   'street': detail.css('h2.search-result-title ::text').get(),
                   }

        next_page = response.css('li.next a::attr(href)').get()

        if next_page is not None:
            next_page = response.urljoin(next_page)
            sleep(5)
            yield scrapy.Request(next_page, callback=self.parse)

, но я блокируюсь с помощью этого user_agent и хотел бы добавить заголовок и выход scrapy.Request (url, заголовки= заголовки), чтобы эмулировать точно такой же запрос, как реальный браузер (что-то вроде того, что делает следующий красивый код супа, но насквозь):

response = get(url, headers=headers)

Я не могу найти много документации / примеров того, гдеточно включить этот заголовок в scrapy? Может кто-нибудь помочь?

gangabass · Answer 1 · 04 ноября 2019

Для вашего запроса start_urls вы можете использовать settings.py: USER_AGENT и DEFAULT_REQUEST_HEADERS

Для каждого request, который вы собираетесь yield из вашего кодаВы можете использовать ключевое слово headers:

yield scrapy.Request(next_page, headers=you_headers, callback=self.parse)

добавление заголовков в scrapy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

добавление заголовков в scrapy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов