Вы можете добавить логику для сбора URL-адресов в ваш метод parse (), собрав css hrefs:
def parse(self, response):
self.driver.get(response.url)
pause_time = 1
last_height = self.driver.execute_script("return document.body.scrollHeight")
#start = datetime.datetime.now()
urls = []
while True:
if len(urls) <= 10000:
for href in response.css('a::attr(href)'):
urls.append(href) # Follow tutorial to learn how to use the href object as you need
else:
break # Exit your while True statement when 10,000 links have been collected
self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight + 400);")
time.sleep(pause_time)
print("\n\n\nend\n\n\n")
new_height = self.driver.execute_script("return document.body.scrollHeight")
В справочнике по scrapy много информации о том, как обрабатывать ссылки по следующим ссылкамраздел . Вы можете использовать эту информацию, чтобы узнать, что еще можно делать со ссылками в scrapy.
Я не проверял это с бесконечной прокруткой, поэтому вам может потребоваться внести некоторые изменения, но это должно помочь вамв правильном направлении.