Я относительно новичок в изучении веб-страниц, и недавно я использовал rvest.
Я собираю заголовки новостей, абзацы и ссылки со страницы новостей Yahoo (по 10 штук за раз). Код, который я использую для этого, приведен ниже:
headlines <- read_html(url) %>%
html_nodes("#web a") %>%
html_text()
paragraphs <- read_html(url) %>%
html_nodes("#web p") %>%
html_text()
links <- read_html(url) %>%
html_nodes("#web a") %>%
html_attr("href")
Моя проблема в том, что иногда мой код работает идеально, и я получаю то, что мне нужно (три вектора информации, каждый длиной 10), а затем через секунду в другом тесте ничего не возвращается:
> headlines <- read_html(url) %>%
+ html_nodes("#web a") %>%
+ html_text()
> headlines
character(0)
Кто-нибудь знает, почему это так или как сделать это более надежным? Я помещаю код в информационную панель и хочу иметь возможность проверять самые популярные новостные статьи каждый день. Может быть, у rvest / Yahoo News есть ограничения по скорости, которые блокируют меня? Я в настоящее время не знаю ни о чем. Для контекста тоже - я постоянно тестирую приборную панель (минимум 100 раз в день), возможно ли, что это может переутомить ее?
Заранее спасибо за любые рекомендации.