Я хочу почистить данные с hockey-reference.com, а именно по этой ссылке:
https://www.hockey -reference.com / лиги / NHL_1991.html
Мне нужна четвертая таблица, называемая «Статистика команды», и я также хочу вычесть первую и последнюю строки (но это может быть в другой раз).
Изначально я хочу, чтобы очистка работала со ссылкой 1991 года, но я хочу со временем очистить каждую ссылку с 1991 по 2017 год.
library(tidyverse)
library(rvest)
stat_urls <- "https://www.hockey-reference.com/leagues/NHL_1991.html"
Прямо сейчас, у меня есть только ссылка 1991 года, для простоты. Кажется, я не могу найти правильный выбор CSS, хотя я пробовал несколько разных, после довольно тщательного поиска, используя источник "inspect" фактической веб-страницы. Я пробовал следующие варианты CSS:
table#stats.sortable.stats_table.now.sortable
#stats
#all_stats
#all_stats > div.table_outer_container
#stats
#stats > tbody
#div_stats (and all sorts of combos with this one)
Ничего из этого не работает, если используется в следующем коде:
team_stats <- stat_urls %>%
read_html() %>%
html_nodes("#stats") %>%
html_table(header = T)
Все попытки с "xpath =" также не увенчались успехом. Любая помощь с этим была бы абсолютно феноменальной, и впереди!