Я уже писал об одном и том же вопросе здесь, но другой поток умирает, и я отчаялся.
Я пытаюсь почистить веб-страницу, используя rvest et c. Большинство вещей работает, но теперь мне нужно R к l oop через список ссылок, и все, что он мне дает, это NA.
Это мой код:
install.packages("rvest")
site20min <- read_xml("https://api.20min.ch/rss/view/1")
urls <- site20min %>% html_nodes('link') %>% html_text()
Мне нужно следующий, потому что первые две ссылки, которые API дает мне, возвращаются прямо на домашнюю страницу
urls <- urls[-c(1:2)]
Если я распечатываю свои ссылки сейчас, это дает мне список из 109 ссылок.
urls
Теперь это мой l oop. Мне нужно, чтобы он дал мне первую ссылку URL, чтобы я мог прочитать: html it
Я ищу что-то вроде: "https://beta.20min.ch/story/so-sieht-die-coronavirus-kampagne-des-bundes-aus-255254143692?legacy=true".
Я использую break, поэтому он показывает мне только первую ссылку, но все, что я получаю, это NA.
for(i in i:length(urls)) {
link <- urls[i]
break
}
link
Если я смогу зайти так далеко, я думаю, что смогу справиться с остальными с помощью rvest, но Я пытаюсь часами и просто никуда не денусь.
Спасибо за вашу помощь.