Значения URL подачи для start_requests для извлечения из другого паука - PullRequest
0 голосов
/ 07 марта 2019

Я совершенно новичок в питоне и скрапе.Я пытаюсь создать скребок, в котором он сначала извлечет URL-адрес, получит все URL-адреса, которые будут очищены, и извлечет значения URL-адресов одно за другим в другой скребок, а затем извлечет фактические необходимые данные.

На данный момент у меня есть два отдельных паука, которые выбирают значения и сохраняют их в текстовом файле.Затем второй паук сканирует URL-адреса из текстового файла.

Но есть ли способ, чтобы первый паук вызывал второго паука и передавал URL-адреса один за другим, вместо того, чтобы сохранять его во внешнем файле и запускать его вручную после завершения извлечения URL-адреса?

Любая помощь по этому вопросу будет принята с благодарностью.

1 Ответ

0 голосов
/ 07 марта 2019

Вы описываете точное поведение Scrapy CrawlSpider , где вы указываете правила для извлечения URL-адресов и метод для анализа содержимого. Посмотрите на некоторые примеры, такие как этот , чтобы изучить основы, это должно помочь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...