У меня есть сканер, который я хочу использовать для извлечения всех URL-адресов на веб-сайте в список строк. Я использую LinkExtractor().extract_links(response)
для этой задачи. Несмотря на то, что это решает проблему поиска всех URL-адресов на веб-сайте, они возвращаются в списке scrapy.link.Link
объектов. Несмотря на то, что URL-адреса хранятся в этом объекте, я не могу найти элегантный способ извлечь URL-адреса или документацию по объектам Scrapy Link.
превращая объект Link Scrapy в строку, я получаю следующее:
Link(url='https://example.com', text='', fragment='', nofollow=True)
Я мог бы отсечь свой путь отсюда. Но я не могу не думать, что должно быть лучшее решение.
Редактировать: Решено, URL-адреса могут быть извлечены из объекта ссылки Scrapy, просто используя Links.url