Мне нужно удалить несколько URL-адресов одновременно, используя scrapy и spla sh .. Я попытался написать следующий код, но все равно не повезло ..
Я прикрепил URL-адреса .. здесь ..
'https://wunderground.com/forecast/us/ny/brooklyn/',
'https://www.wunderground.com/forecast/us/pa/california/',
'https://www.wunderground.com/forecast/us/ny/boston'
поэтому мне нужно перебрать эти URL-адреса, а затем выбросить их с помощью scrapy.
Я не могу получить данные, используя мульти-URL ... он показывает ошибку. Пожалуйста, помогите
Мой вопрос: как я могу продолжить очистку этого списка URL-адресов?
import scrapy
from scrapy_splash import SplashRequest
import scrapy_proxies
class WundergroundSpider(scrapy.Spider):
name = 'wunderground'
#allowed_domains = ['www.wunderground.com/forecast/us/ny/brooklyn']
start_urls = []
script = '''
function main(splash, args)
splash.private_mode_enabled = false
assert(splash:go(args.url))
assert(splash:wait(10))
return splash:html()
end
'''
def start_requests(self):
urls = [
'https://wunderground.com/forecast/us/ny/brooklyn/',
'https://www.wunderground.com/forecast/us/pa/california/',
'https://www.wunderground.com/forecast/us/ny/boston'
]
for url in urls:
yield SplashRequest(url, self.parse, args={'wait': 8})
def parse(self, response):
tmps= {
'tempHigh': response.xpath("//div[@class='forecast']/a[@class='navigate-to ng-star-inserted']/div[@class='obs-forecast']/span/span[@class='temp-hi']/text()")[0],
'templow': response.xpath("//div[@class='forecast']/a[@class='navigate-to ng-star-inserted']/div[@class='obs-forecast']/span/span[@class='temp-lo']/text()")[0],
'obsphs' : response.xpath("//div[@class='forecast']/a[@class='navigate-to ng-star-inserted']/div[@class='obs-forecast']/div[@class='obs-phrase']/text()")[0]
}
yield tmps