Я работаю над проектом сбора некоторых данных из https://www.hockey -reference.com / boxscores / .На самом деле я пытаюсь получить каждый стол сезона.Я сгенерировал список URL, составленный путем объединения https://www.hockey -reference.com / boxscores / с каждой датой календаря и названием каждой команды, например "https://www.hockey -reference.com /boxscores / 20171005WSH.html
Я заполнил каждый URL-адрес в список, но некоторые приводят к ошибке 404. Я пытаюсь использовать "пакет Curl" с функцией "url.exists""знать, будет ли ошибка 404 и удалить URL списка. Проблема в том, что каждый URL из списка (включая реально существующий URL) возвращает FALSE с url.exists в цикле for ... Я пыталсяиспользовать эту функцию в консоли с url.exists (мой список [i]), но она возвращает FALSE.
вот мой код:
library(rvest)
library(RCurl)
##### Variables ####
team_names = c("ANA","ARI","BOS","BUF","CAR","CGY","CHI","CBJ","COL","DAL","DET","EDM","FLA","LAK","MIN","MTL","NSH","NJD","NYI","NYR","OTT","PHI","PHX","PIT","SJS","STL","TBL","TOR","VAN","VGK","WPG","WSH")
S2017 = read.table(file = "2018_season", header = TRUE, sep = ",")
dates = as.character(S2017[,1])
#### formating des dates ####
for (i in 1:length(dates)) {
dates[i] = gsub("-", "", dates[i])
}
dates = unique(dates)
##### generation des url ####
url_list = c()
for (j in 1:2) { #dates
for (k in 1:length(team_names)) {
print(k)
url_site = paste("https://www.hockey-reference.com/boxscores/",dates[j],team_names[k],".html",sep="")
url_list = rbind(url_site,url_list)
}
}
url_list_raffined = c()
for (l in 1:40) {
print(l)
if (url.exists(url_list[l], .header = TRUE) == TRUE) {
url_list_raffined = c(url_list_raffined,url_list[l])
}
}
Есть идеи для моих проблем?
спасибо