Удаление таблицы с веб-сайта с использованием rvest - PullRequest
0 голосов
/ 30 сентября 2019

Я пытаюсь почистить таблицу на веб-сайте казначейства.

https://www.treasury.gov/resource-center/data-chart-center/interest-rates/Pages/TextView.aspx?data=yieldYear&year=2019

В настоящее время я собираю данные, но

library("rvest")
url <- "https://www.treasury.gov/resource-center/data-chart-center/interest-rates/Pages/TextView.aspx?data=yieldAll"

data <- url %>%
  html()

НоКажется, я не могу получить его в виде таблицы, так как у меня есть функция.

data %>%
html_table()

1 Ответ

1 голос
/ 30 сентября 2019

Лучше сначала использовать CSS, чтобы найти узел, который содержит таблицу. Стол большой (около 7400 строк). Для рендеринга потребовалось 30 секунд, используя html_table.

library("rvest")
library(httr)
url <- "https://www.treasury.gov/resource-center/data-chart-center/interest-rates/Pages/TextView.aspx?data=yieldAll"
ua <- "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"

data <- html_session(url,user_agent(ua))
data %>%
    html_node("table.t-chart") %>%
    html_table()

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...