Scrapy make_requests_from_url (url) - PullRequest
       6

Scrapy make_requests_from_url (url)

1 голос
/ 27 ноября 2009

В руководстве по Scrapy есть метод BaseSpider:

make_requests_from_url (URL)

Метод, который получает URL и возвращает объект запроса (или список Просьба объекты) поцарапать.

Этот метод используется для построения первоначальные запросы в start_requests () и является обычно используется для преобразования URL в запросы.

Если не переопределено, этот метод возвращает Запросы с помощью метода parse () как их функция обратного вызова, и с Параметр dont_filter включен (см. Запросить класс для получения дополнительной информации).

Вы понимаете, что делает этот метод? И можно ли использовать makerequestsfrom_url и BaseSpider вместо SgmlLinkExtractor и CrawlSpider, которые у меня не работают?

Я пытаюсь сканировать больше, чем заданный начальный URL, а Скрапи этого не делает.

Спасибо

1 Ответ

5 голосов
/ 20 сентября 2010

Правильно, CrawlSpider полезен и удобен во многих случаях, но он охватывает только подмножество всех возможных пауков. Если вам нужно что-то более сложное, вы, как правило, подкласс BaseSpider и реализует метод start_requests () .

...