извлечение таблицы с помощью htmltab R (ответил) - PullRequest
1 голос
/ 02 мая 2020

Я пытаюсь очистить вторую таблицу от https://fbref.com/en/comps/9/passing/Premier-League-Stats

Я использовал

URLPL <- "https://fbref.com/en/comps/9/passing/Premier-League-Stats"
Tab <- htmltab(doc = URLPL, which = 2)

, который возвращает

"Ошибка: не удалось найти таблицу. Попробуйте передать (другую) информацию в аргумент which"

, а также

URLPL <- "https://fbref.com/en/comps/9/passing/Premier-League-Stats"
Tab <- htmltab(doc = URLPL, which = "//table[2]") 

, который возвращает

«Ошибка в узле [ 1 ]: индекс за пределами»

На веб-странице 2 таблицы. Если кто-нибудь может указать мне правильный путь здесь. Спасибо.

Редактировать: Теперь я понял, что на веб-странице есть только одна таблица, а то, что я считал таблицей, - нет. Теперь я еще больше запутался, что и где go.

1 Ответ

0 голосов
/ 03 мая 2020

Отвечая на мой собственный вопрос здесь. Для тех, у кого может быть такая же проблема. Что-нибудь кроме верхней таблицы на любом из сайтов спортивных ссылок. (Хоккей / Баскетбол / Бейсбол) считаются комментариями.

PremLeague = "https://fbref.com/en/comps/12/stats/La-Liga-Stats"

 Prem  =  PremLeague %>%
  read_html %>%
  html_nodes(xpath = '//comment()') %>%
  html_text() %>%
  paste(collapse='') %>%  
  read_html() %>%
  html_node("#stats_standard") %>%  
  html_table()

Это сработало для меня.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...