Question

Я пытаюсь создать какой-то код, чтобы очистить имена чиновников, которые судили каждую игру НБА в течение сезона. Все URL, которые я пытаюсь найти, имеют одинаковый формат, поэтому мне нужен код, который идентифицирует формат и reads официальные имена. Большое спасибо за вашу помощь!

Вы увидите, что:

Первая версия # extract officials ниже, читает заголовки inactive, officials, attendance и т. Д.
Вторая версия # extract officials читает текст после каждого из вышеупомянутых заголовков.
Iнужен код, который распознает этот формат / шаблон по нескольким URL-адресам и каждый раз читает имена официальных лиц.

Scott Foster, Ron Garretson, Dedric Taylor в этом конкретном примере URL-адреса:

# get webpage
url = paste0("https://www.basketball-reference.com/boxscores/", "201810160BOS", ".html")
webpage = read_html(url)

# extract officials
data = webpage %>% 
    html_nodes(paste("body > div > div > div > div > strong")) %>%
    html_text()

# extract officials
data = webpage %>% 
    html_nodes(paste("body > div > div > div > div > a")) %>%
    html_text()

Glenn · Answer 1 · 21 октября 2019

Я сам не очень разбираюсь в R, и я уверен, что есть лучший способ, но, возможно, это может быть началом:

library(rvest)


url = paste0("https://www.basketball-reference.com/boxscores/", "201810160BOS", ".html")
webpage = read_html(url)

data = webpage %>% html_nodes(paste("body > div > div > div > div > a"))


urls <- data %>% html_attr("href")
text <- data %>% html_text()

df <- data.frame(urls, text, stringsAsFactors=FALSE)

refs <- df[stringr::str_detect(urls, "referees"),"text"]

Это результат, который я получаю: из приведенного вышекод:

refs [1] "Скотт Фостер" "Рон Гарретсон" "Дедрик Тейлор"

Создание последовательности для очистки текста от URL с использованием R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Создание последовательности для очистки текста от URL с использованием R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы