Как получить список URL-адресов из объекта LinkExtractor () или scrapy.link.Link? (Раскрыты) - PullRequest
0 голосов
/ 27 февраля 2020

У меня есть сканер, который я хочу использовать для извлечения всех URL-адресов на веб-сайте в список строк. Я использую LinkExtractor().extract_links(response) для этой задачи. Несмотря на то, что это решает проблему поиска всех URL-адресов на веб-сайте, они возвращаются в списке scrapy.link.Link объектов. Несмотря на то, что URL-адреса хранятся в этом объекте, я не могу найти элегантный способ извлечь URL-адреса или документацию по объектам Scrapy Link.

превращая объект Link Scrapy в строку, я получаю следующее:

Link(url='https://example.com', text='', fragment='', nofollow=True)

Я мог бы отсечь свой путь отсюда. Но я не могу не думать, что должно быть лучшее решение.

Редактировать: Решено, URL-адреса могут быть извлечены из объекта ссылки Scrapy, просто используя Links.url

...