Я хочу удалить данные матчей НХЛ.Затем, две строки должны быть очищены для соответствия (URL).Когда я выбрасываю одно совпадение (один URL), результат не пустой.Но когда я отбрасываю десять совпадений, результат пуст, например) очищено 16 из 20.
import scrapy
from selenium import webdriver
from scrapy.selector import Selector
import time
from nhl.items import NHLItem
class NHL_Spider(scrapy.Spider):
name='NHL'
allowed_domains=["nhl.com"]
start_urls=["https://www.nhl.com/gamecenter/20180%d"%i for i in range(20001,20011)]
def __init__(self):
scrapy.Spider.__init__(self)
self.browser=webdriver.Chrome("/users/박정균/chromedriver")
def parse(self,response):
self.browser.get(response.url)
self.browser.find_element_by_xpath('//*[@id="gamecenter-index-component__app"]/div[3]/div/div/div[2]/div/nav/ul/li[2]/a').click()
source=self.browser.page_source
html=self.browser.find_element_by_xpath('//*').get_attribute('outerHTML')
selector=Selector(text=html)
rows = selector.xpath('//*[@class="statistics__season-stats"]/table/tbody/tr')
for row in rows:
item=NHLItem()
item["Team"]=row.xpath('.//*[@class="media-heading small"]/text()')[0].extract()
item["Shots"]=row.xpath('./td[2]/text()')[0].extract()
item["FO"]=row.xpath('./td[3]/text()')[0].extract()
item["PP"]=row.xpath('./td[4]/text()')[0].extract()
yield item
ОТЛАДКА: Сканировано (200) https://www.nhl.com/gamecenter/wsh-vs-pit/2018/10/04/2018020007> (реферер: нет)
Это cmdрезультат.
csv ex) шш, 30,15% ямы, 42,40% <----- это мое желание </p>
wsh,30,15%
(empty) <-----this is my result