Question

Я совершенно новичок в питоне и скрапе.Я пытаюсь создать скребок, в котором он сначала извлечет URL-адрес, получит все URL-адреса, которые будут очищены, и извлечет значения URL-адресов одно за другим в другой скребок, а затем извлечет фактические необходимые данные.

На данный момент у меня есть два отдельных паука, которые выбирают значения и сохраняют их в текстовом файле.Затем второй паук сканирует URL-адреса из текстового файла.

Но есть ли способ, чтобы первый паук вызывал второго паука и передавал URL-адреса один за другим, вместо того, чтобы сохранять его во внешнем файле и запускать его вручную после завершения извлечения URL-адреса?

Любая помощь по этому вопросу будет принята с благодарностью.

matthieu.cham · Answer 1 · 07 марта 2019

Вы описываете точное поведение Scrapy CrawlSpider , где вы указываете правила для извлечения URL-адресов и метод для анализа содержимого. Посмотрите на некоторые примеры, такие как этот , чтобы изучить основы, это должно помочь.

Значения URL подачи для start_requests для извлечения из другого паука

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Значения URL подачи для start_requests для извлечения из другого паука

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов