Ползать с аутентифицированным сеансом в Scrapy - PullRequest
30 голосов
/ 02 мая 2011

В моем предыдущем вопросе я не был очень конкретным в отношении моей проблемы (с помощью аутентифицированного сеанса с Scrapy) в надежде на то, что смогу вывести решение из более общего ответа.Вероятно, мне следовало бы использовать слово crawling.

Итак, вот мой код:

class MySpider(CrawlSpider):
    name = 'myspider'
    allowed_domains = ['domain.com']
    start_urls = ['http://www.domain.com/login/']

    rules = (
        Rule(SgmlLinkExtractor(allow=r'-\w+.html$'), callback='parse_item', follow=True),
    )

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        if not "Hi Herman" in response.body:
            return self.login(response)
        else:
            return self.parse_item(response)

    def login(self, response):
        return [FormRequest.from_response(response,
                    formdata={'name': 'herman', 'password': 'password'},
                    callback=self.parse)]


    def parse_item(self, response):
        i['url'] = response.url

        # ... do more things

        return i

Как видите, первая страница, которую я посещаю, - это страница входа,Если я еще не аутентифицирован (в функции parse), я вызываю свою пользовательскую функцию login, которая отправляет сообщение в форму входа.Затем, если я проверен на , я хочу продолжить сканирование.

Проблема заключается в том, что функция parse, которую я пытался переопределить для входа в систему, теперь больше не делает необходимыезвонки, чтобы очистить любые дальнейшие страницы (я предполагаю).И я не уверен, как сохранить сохраненные мной элементы.

Кто-нибудь делал что-то подобное раньше?(Аутентифицируйте, затем сканируйте, используя CrawlSpider). Любая помощь будет принята.

Ответы [ 4 ]

55 голосов
/ 02 мая 2011

Не отменять функцию parse в CrawlSpider:

Когда вы используете CrawlSpider, вы не должны отменять функцию parse. В документации CrawlSpider есть предупреждение: http://doc.scrapy.org/en/0.14/topics/spiders.html#scrapy.contrib.spiders.Rule

Это потому, что с CrawlSpider, parse (обратный вызов по умолчанию для любого запроса) отправляет ответ для обработки Rule s.


Вход в систему до сканирования:

Чтобы иметь возможность инициализации до того, как паук начнет ползать, вы можете использовать InitSpider (который наследуется от CrawlSpider) и переопределить функцию init_request. Эта функция будет вызываться при инициализации паука и до начала его сканирования.

Чтобы Паук начал ползать, вам нужно позвонить self.initialized.

Вы можете прочитать код, ответственный за это здесь (в нем есть полезные строки документации).


Пример:

from scrapy.contrib.spiders.init import InitSpider
from scrapy.http import Request, FormRequest
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import Rule

class MySpider(InitSpider):
    name = 'myspider'
    allowed_domains = ['example.com']
    login_page = 'http://www.example.com/login'
    start_urls = ['http://www.example.com/useful_page/',
                  'http://www.example.com/another_useful_page/']

    rules = (
        Rule(SgmlLinkExtractor(allow=r'-\w+.html$'),
             callback='parse_item', follow=True),
    )

    def init_request(self):
        """This function is called before crawling starts."""
        return Request(url=self.login_page, callback=self.login)

    def login(self, response):
        """Generate a login request."""
        return FormRequest.from_response(response,
                    formdata={'name': 'herman', 'password': 'password'},
                    callback=self.check_login_response)

    def check_login_response(self, response):
        """Check the response returned by a login request to see if we are
        successfully logged in.
        """
        if "Hi Herman" in response.body:
            self.log("Successfully logged in. Let's start crawling!")
            # Now the crawling can begin..
            return self.initialized()
        else:
            self.log("Bad times :(")
            # Something went wrong, we couldn't log in, so nothing happens.

    def parse_item(self, response):

        # Scrape data from page

Сохранение предметов:

Предметы, которые возвращает ваш Паук, передаются в конвейер, который отвечает за то, что вы хотите сделать с данными. Я рекомендую вам прочитать документацию: http://doc.scrapy.org/en/0.14/topics/item-pipeline.html

Если у вас есть какие-либо проблемы / вопросы относительно Item s, не стесняйтесь задавать новый вопрос, и я сделаю все возможное, чтобы помочь.

3 голосов
/ 06 января 2012

Чтобы вышеуказанное решение работало, мне пришлось заставить CrawlSpider наследовать от InitSpider, а не от BaseSpider, изменив в исходном коде scrapy следующее. В файле scrapy / contrib / spiders / crawl.py:

  1. добавить: from scrapy.contrib.spiders.init import InitSpider
  2. изменить class CrawlSpider(BaseSpider) на class CrawlSpider(InitSpider)

В противном случае паук не вызвал бы метод init_request.

Есть ли другой способ проще?

2 голосов
/ 15 июля 2014

Просто добавлю ответ Акорна выше. Используя его метод, мой скрипт не анализировал start_urls после входа в систему. Это было выход после успешного входа в систему в check_login_response. Я мог видеть, что у меня был генератор все же. Мне нужно было использовать

return self.initialized()

Затем была вызвана функция синтаксического анализа.

2 голосов
/ 26 июля 2011

Если вам нужно Аутентификация Http , используйте предоставленные промежуточные хуки.

в settings.py

DOWNLOADER_MIDDLEWARE = [ 'scrapy.contrib.downloadermiddleware.httpauth.HttpAuthMiddleware']

и в ваших spider class добавлениях свойств

http_user = "user"
http_pass = "pass"
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...