Я пытаюсь очистить некоторые (много) данные о баскетболе мужчин NCAA с веб-сайта под названием RealGM.Мой код лежит ниже:
library(htmltab)
tables <- list()
for (i in 0:1548) {
for (j in 0:16) {
for (k in 0:4) {
a <- i+1
b <- 2003+j
c <- k+1
url <- paste("https://basketball.realgm.com/ncaa/conferences/Big-Ten-Conference/2/Michigan/",a,"/individual-games/",b,"/minutes/Season/desc/",c,sep = "")
tables[[paste(i,j,k,sep = "")]] <- htmltab(url,rm_nodata_cols = F,which = 1)
}
}
}
В прошлом я использовал подобные методы для извлечения данных с сайтов, таких как Sports Reference, которые хранят данные игроков в таблицах.
В этом цикле переменная a контролирует команду, b контролирует год, а c контролирует номер страницы для набора игрового журнала.
Моя проблема заключается в том, что некоторые из упомянутых URL-адресовне содержат таблиц, то есть нет 4-й страницы игровых журналов для команды Мичигана 2003 года, но есть 5 страниц для их команды 2018.
К сожалению, htmltab возвращает ошибку, когда таблица не найдена, и прерываетсямоя петля.Есть ли обходной путь для этого, чтобы он просто пропускал эти URL и / или продолжал до конца процесса?