scrapy - это отличный инструмент для скрапинга сайтов, но это больше, чем просто фрагмент, как вы написали.То, что вы разместили, является определением паука.Если он встроен в проект scrapy, вы можете запустить этого паука, например, в своем терминале с scrapy crawl myspider
.
Тогда ваш паук посетит http://webpage.com
, извлечет все его ссылки и рекурсивно последует за ними.Каждый URL будет распечатан, но это все.Для хранения этих ссылок вы можете создавать так называемые элементы, которые затем можно экспортировать с помощью определенного конвейера элементов.Слишком сложная вещь, чтобы опубликовать ее в одном ответе.Суть в том, что да, scrapy - это мощный инструмент, который вы можете использовать для извлечения ссылок, и лучше всего начать с учебников по scrapy: https://docs.scrapy.org/en/latest/intro/tutorial.html
к счастью, документация по scrapy хороша:)