RVest иногда работает, иногда возвращает 0 узлов - PullRequest
0 голосов
/ 25 марта 2020

Я относительно новичок в изучении веб-страниц, и недавно я использовал rvest.

Я собираю заголовки новостей, абзацы и ссылки со страницы новостей Yahoo (по 10 штук за раз). Код, который я использую для этого, приведен ниже:

headlines <- read_html(url) %>%
    html_nodes("#web a") %>% 
    html_text() 

paragraphs <- read_html(url) %>%
    html_nodes("#web p") %>% 
    html_text()

links <- read_html(url) %>%
    html_nodes("#web a") %>% 
    html_attr("href")

Моя проблема в том, что иногда мой код работает идеально, и я получаю то, что мне нужно (три вектора информации, каждый длиной 10), а затем через секунду в другом тесте ничего не возвращается:

> headlines <- read_html(url) %>%
+     html_nodes("#web a") %>% 
+     html_text()
> headlines
character(0)

Кто-нибудь знает, почему это так или как сделать это более надежным? Я помещаю код в информационную панель и хочу иметь возможность проверять самые популярные новостные статьи каждый день. Может быть, у rvest / Yahoo News есть ограничения по скорости, которые блокируют меня? Я в настоящее время не знаю ни о чем. Для контекста тоже - я постоянно тестирую приборную панель (минимум 100 раз в день), возможно ли, что это может переутомить ее?

Заранее спасибо за любые рекомендации.

...