Как извлечь конкретную таблицу с веб-сайта, на котором есть несколько таблиц в R? - PullRequest
0 голосов
/ 13 апреля 2019

Я пытаюсь извлечь таблицу из https://www.basketball -reference.com / leagues / NBA_2018.html . Таблица, которую я хочу, это (Статистика команд за игру). Эта веб-страница содержит несколько таблиц, и когда я пытаюсь извлечь из нее таблицы, она дает первые две таблицы со страницы.

Как мне получить таблицу, которую я хочу, используя R? Я упомянул ниже код, который я использовал

library(rvest)


url <- "https://www.basketball-reference.com/leagues/NBA_2018.html"

# read the link 

html <-read_html(url)


tables <- html %>% html_table(fill =TRUE)

View(tables)

1 Ответ

0 голосов
/ 14 апреля 2019

Это закомментировано. Вы можете получить комментарии с помощью xpath, а затем получить нужную таблицу

library(rvest)

page <- read_html('https://www.basketball-reference.com/leagues/NBA_2018.html')

df <- page %>% html_nodes(xpath = '//comment()') %>%
  html_text() %>%  
  paste(collapse = '') %>%
  read_html() %>% 
  html_node('#team-stats-per_game') %>%
  html_table()
...