Я пытался использовать универсальный Scrapy.spider для перехода по ссылкам, но это не сработало - поэтому я наткнулся на идею упрощения процесса, получив вместо этого sitemap.txt
, но это тоже не сработало!
Я написал простой пример (чтобы помочь мне понять алгоритм) паука, следуя карте сайта, указанной на моем сайте: https://legion-216909.appspot.com/sitemap.txt
Он предназначен для навигации по URL-адресам, указанным на карте сайта, их распечатки на экране ивывести результаты в файл links.txt
.Код:
import scrapy
from scrapy.spiders import SitemapSpider
class MySpider(SitemapSpider):
name = "spyder_PAGE"
sitemap_urls = ['https://legion-216909.appspot.com/sitemap.txt']
def parse(self, response):
print(response.url)
return response.url
Я запустил вышеупомянутого паука как Scrapy crawl spyder_PAGE > links.txt
, но это вернуло пустой текстовый файл.Я много раз просматривал документы Scrapy, но чего-то не хватает.Куда я иду не так?