Я использую scrapy / spyder для создания своего сканера, а также BeautifulSoup. Я работал над сканером и считаю, что мы находимся в точке, которая работает, как и ожидалось, с несколькими отдельными страницами, которые мы просмотрели, поэтомуМоя следующая задача - очистить тот же сайт, но ТОЛЬКО страницы, относящиеся к категории высокого уровня.
Единственное, что я попробовал, - это использование allow_domain и start_urls, но когда я это сделал, он буквально попадал на каждую найденную страницу, и мы хотим контролировать, какие страницы мы чистим, чтобы у нас был чистый список информации.
Я понимаю, что на каждой странице есть ссылки, которые выводят вас за пределы страницы, на которой вы находитесь, и могут оказаться в других местах на сайте ... но я пытаюсь сосредоточиться только на нескольких страницах в каждой категории
# allowed_domain = ['dickssportinggoods.com']
# start_urls = ['https://www.dickssportinggoods.com/c/mens-top-trends-gear']