Я пытаюсь создать инструмент, который должен получать каждую ссылку с сайта.
Например, мне нужно получить все страницы с вопросами из stackoverflow.
Я пытался использовать скрап.
class MySpider(CrawlSpider):
name = 'myspider'
start_urls = ['https://stackoverflow.com/questions/']
def parse(self, response):
le = LinkExtractor()
for link in le.extract_links(response):
url_lnk = link.url
print (url_lnk)
Здесь я получил только вопросы со стартовой страницы. Что мне нужно сделать, чтобы получить все «вопросные» ссылки. Время не имеет значения, мне просто нужно понять, что делать.
UPD
Сайт, который я хочу наблюдать, это https://sevastopol.su/ - это местный городской новостной сайт.
Список всех новостей должен содержаться здесь: https://sevastopol.su/all-news
В нижней части этой страницы вы можете видеть номера страниц, но если мы перейдем на последнюю страницу новостей, мы увидим, что он имеет номер 765 (прямо сейчас, 19.06.2019), но он показывает последний новый с датой от 19 июня 2018 года. Итак, на последней странице показаны только годичные новости. Но есть также много ссылок на новости, которые все еще живы (вероятно, с 2010 года) и могут даже быть найдены на странице поиска этого сайта.
Вот почему я хотел знать, может ли быть доступ к какому-либо глобальному хранилищу ссылок этого сайта.