Я пытаюсь создать какой-то код, чтобы очистить имена чиновников, которые судили каждую игру НБА в течение сезона. Все URL, которые я пытаюсь найти, имеют одинаковый формат, поэтому мне нужен код, который идентифицирует формат и reads
официальные имена. Большое спасибо за вашу помощь!
Вы увидите, что:
Первая версия # extract officials
ниже, читает заголовки inactive
, officials
, attendance
и т. Д.
Вторая версия # extract officials
читает текст после каждого из вышеупомянутых заголовков.
Iнужен код, который распознает этот формат / шаблон по нескольким URL-адресам и каждый раз читает имена официальных лиц.
Scott Foster
, Ron Garretson
, Dedric Taylor
в этом конкретном примере URL-адреса:
# get webpage
url = paste0("https://www.basketball-reference.com/boxscores/", "201810160BOS", ".html")
webpage = read_html(url)
# extract officials
data = webpage %>%
html_nodes(paste("body > div > div > div > div > strong")) %>%
html_text()
# extract officials
data = webpage %>%
html_nodes(paste("body > div > div > div > div > a")) %>%
html_text()