Я работаю в R и пытаюсь почистить статистику для нескольких игроков из www.baseball-reference.com
. Я был в состоянии очистить другие элементы от определенных страниц на сайте, но столкнулся с проблемами удаления из определенной таблицы, которая появляется на страницах статистики всех игроков. Идентификатор таблицы - «batting_value», а заголовок узла, который отображается на странице в виде заголовка таблицы - «Значение игрока - Ватин».
Вот пример страницы:
https://www.baseball-reference.com/players/b/brownro02.shtml
Я заинтересован в удалении значения PA из нижней строки таблицы «Player Value - Batting».
Я пробовал inspect > copy xpath
, что дает мне xpath
в случае URL-адреса приведенного выше примера.
//*[@id="batting_value"]/tfoot/tr/td[3]
Но когда я пытаюсь очистить, используя этот путь ...
library(dplyr)
library(rvest)
xpath <- '//*[@id="batting_value"]/tfoot/tr/td[3]'
tables <- read_html(url)
pa <- tables %>%
html_node(xpath = xpath) %>%
html_text()
pa
[1] NA
Похоже, API даже не находит узел:
tables %>%
html_node(xpath = xpath)
{xml_missing}
<NA>
Почему этот узел не найден html_node
, и как мне убрать это значение из таблицы Player Value - Batting?