Я соскребу news.crunchbase.com с помощью Scrapy.Функция обратного вызова для следующих рекурсивных ссылок не срабатывает в случае, если я перехожу по фактической ссылке, но работает нормально, если вместо этого я сканирую некоторую тестовую ссылку.Я предполагаю, что проблема во времени, поэтому хочу отложить рекурсивный запрос.
РЕДАКТИРОВАТЬ: ответ от здесь устанавливает глобальную задержку, но она не регулирует рекурсивную задержку.Рекурсивный обход ссылок выполняется мгновенно - сразу после очистки данных.
def parse(self, response):
time.sleep(5)
for post in response.css('div.herald-posts'):
article_url = post.css('div.herald-post-thumbnail a::attr(href)').get()
if article_url is not None:
print('\nGot article...', article_url, '\n')
yield response.follow(article_url, headers = self.custom_headers, callback = self.parse_article)
yield {
'title': post.css('div.herald-post-thumbnail a::attr(title)').get(),
}