Scrapy Django Limit Links просканировал - PullRequest
5 голосов
/ 24 ноября 2010

Я только что установил и запустил scrapy, и он прекрасно работает, но у меня есть два (нуб) вопроса. Прежде всего, я должен сказать, что я совершенно новичок в области скрапа и паутинки.

  1. Можете ли вы ограничить количество просканированных ссылок? У меня есть сайт, который не использует нумерацию страниц и просто перечисляет много ссылок (которые я сканирую) на их домашней странице. Мне плохо, когда я сканирую все эти ссылки, когда мне действительно нужно сканировать первые 10 или около того.

  2. Как вы управляете несколькими пауками одновременно? Сейчас я использую команду scrapy crawl example.com, но у меня также есть пауки для example2.com и example3.com. Я хотел бы запустить всех своих пауков, используя одну команду. Возможно ли это?

Ответы [ 2 ]

2 голосов
/ 25 ноября 2010

для # 1: Не используйте атрибут rules для извлечения ссылок и следования, пишите свое правило в функции разбора и передавайте или возвращайте объект Requests.

для # 2: попробуйте scrapyd

0 голосов
/ 12 июля 2012

Кредит идет к Шейну, здесь https://groups.google.com/forum/?fromgroups#!topic/scrapy-users/EyG_jcyLYmU

Использование CloseSpider должно позволять вам указывать ограничения такого рода.

http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

Еще не пробовал, так как мне это не нужно. Похоже, вам также может потребоваться включить расширение (см. Верх той же страницы) в файле настроек.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...