Question

В моем предыдущем вопросе я не был очень конкретным в отношении моей проблемы (с помощью аутентифицированного сеанса с Scrapy) в надежде на то, что смогу вывести решение из более общего ответа.Вероятно, мне следовало бы использовать слово crawling.

Итак, вот мой код:

class MySpider(CrawlSpider):
    name = 'myspider'
    allowed_domains = ['domain.com']
    start_urls = ['http://www.domain.com/login/']

    rules = (
        Rule(SgmlLinkExtractor(allow=r'-\w+.html$'), callback='parse_item', follow=True),
    )

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        if not "Hi Herman" in response.body:
            return self.login(response)
        else:
            return self.parse_item(response)

    def login(self, response):
        return [FormRequest.from_response(response,
                    formdata={'name': 'herman', 'password': 'password'},
                    callback=self.parse)]


    def parse_item(self, response):
        i['url'] = response.url

        # ... do more things

        return i

Как видите, первая страница, которую я посещаю, - это страница входа,Если я еще не аутентифицирован (в функции parse), я вызываю свою пользовательскую функцию login, которая отправляет сообщение в форму входа.Затем, если я проверен на , я хочу продолжить сканирование.

Проблема заключается в том, что функция parse, которую я пытался переопределить для входа в систему, теперь больше не делает необходимыезвонки, чтобы очистить любые дальнейшие страницы (я предполагаю).И я не уверен, как сохранить сохраненные мной элементы.

Кто-нибудь делал что-то подобное раньше?(Аутентифицируйте, затем сканируйте, используя CrawlSpider). Любая помощь будет принята.

Acorn · Answer 1 · 02 мая 2011

Не отменять функцию parse в CrawlSpider:

Когда вы используете CrawlSpider, вы не должны отменять функцию parse. В документации CrawlSpider есть предупреждение: http://doc.scrapy.org/en/0.14/topics/spiders.html#scrapy.contrib.spiders.Rule

Это потому, что с CrawlSpider, parse (обратный вызов по умолчанию для любого запроса) отправляет ответ для обработки Rule s.

Вход в систему до сканирования:

Чтобы иметь возможность инициализации до того, как паук начнет ползать, вы можете использовать InitSpider (который наследуется от CrawlSpider) и переопределить функцию init_request. Эта функция будет вызываться при инициализации паука и до начала его сканирования.

Чтобы Паук начал ползать, вам нужно позвонить self.initialized.

Вы можете прочитать код, ответственный за это здесь (в нем есть полезные строки документации).

Пример:

from scrapy.contrib.spiders.init import InitSpider
from scrapy.http import Request, FormRequest
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import Rule

class MySpider(InitSpider):
    name = 'myspider'
    allowed_domains = ['example.com']
    login_page = 'http://www.example.com/login'
    start_urls = ['http://www.example.com/useful_page/',
                  'http://www.example.com/another_useful_page/']

    rules = (
        Rule(SgmlLinkExtractor(allow=r'-\w+.html$'),
             callback='parse_item', follow=True),
    )

    def init_request(self):
        """This function is called before crawling starts."""
        return Request(url=self.login_page, callback=self.login)

    def login(self, response):
        """Generate a login request."""
        return FormRequest.from_response(response,
                    formdata={'name': 'herman', 'password': 'password'},
                    callback=self.check_login_response)

    def check_login_response(self, response):
        """Check the response returned by a login request to see if we are
        successfully logged in.
        """
        if "Hi Herman" in response.body:
            self.log("Successfully logged in. Let's start crawling!")
            # Now the crawling can begin..
            return self.initialized()
        else:
            self.log("Bad times :(")
            # Something went wrong, we couldn't log in, so nothing happens.

    def parse_item(self, response):

        # Scrape data from page

Сохранение предметов:

Предметы, которые возвращает ваш Паук, передаются в конвейер, который отвечает за то, что вы хотите сделать с данными. Я рекомендую вам прочитать документацию: http://doc.scrapy.org/en/0.14/topics/item-pipeline.html

Если у вас есть какие-либо проблемы / вопросы относительно Item s, не стесняйтесь задавать новый вопрос, и я сделаю все возможное, чтобы помочь.

viniciusnz · Answer 2 · 06 января 2012

Чтобы вышеуказанное решение работало, мне пришлось заставить CrawlSpider наследовать от InitSpider, а не от BaseSpider, изменив в исходном коде scrapy следующее. В файле scrapy / contrib / spiders / crawl.py:

добавить: from scrapy.contrib.spiders.init import InitSpider
изменить class CrawlSpider(BaseSpider) на class CrawlSpider(InitSpider)

В противном случае паук не вызвал бы метод init_request.

Есть ли другой способ проще?

knowingpark · Answer 3 · 15 июля 2014

Просто добавлю ответ Акорна выше. Используя его метод, мой скрипт не анализировал start_urls после входа в систему. Это было выход после успешного входа в систему в check_login_response. Я мог видеть, что у меня был генератор все же. Мне нужно было использовать

return self.initialized()

Затем была вызвана функция синтаксического анализа.

bdargan · Answer 4 · 26 июля 2011

Если вам нужно Аутентификация Http , используйте предоставленные промежуточные хуки.

в settings.py

DOWNLOADER_MIDDLEWARE = [ 'scrapy.contrib.downloadermiddleware.httpauth.HttpAuthMiddleware']

и в ваших spider class добавлениях свойств

http_user = "user"
http_pass = "pass"

Ползать с аутентифицированным сеансом в Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Ползать с аутентифицированным сеансом в Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов