Webscraping в R: Почему мой l oop возвращает NA? - PullRequest
0 голосов
/ 02 апреля 2020

Я уже писал об одном и том же вопросе здесь, но другой поток умирает, и я отчаялся.

Я пытаюсь почистить веб-страницу, используя rvest et c. Большинство вещей работает, но теперь мне нужно R к l oop через список ссылок, и все, что он мне дает, это NA.

Это мой код:

install.packages("rvest")

site20min <- read_xml("https://api.20min.ch/rss/view/1")

urls <- site20min %>% html_nodes('link') %>% html_text()

Мне нужно следующий, потому что первые две ссылки, которые API дает мне, возвращаются прямо на домашнюю страницу

urls <- urls[-c(1:2)]

Если я распечатываю свои ссылки сейчас, это дает мне список из 109 ссылок.

urls

Теперь это мой l oop. Мне нужно, чтобы он дал мне первую ссылку URL, чтобы я мог прочитать: html it

Я ищу что-то вроде: "https://beta.20min.ch/story/so-sieht-die-coronavirus-kampagne-des-bundes-aus-255254143692?legacy=true".

Я использую break, поэтому он показывает мне только первую ссылку, но все, что я получаю, это NA.

for(i in i:length(urls)) {
  link <- urls[i]
  break
} 
link

Если я смогу зайти так далеко, я думаю, что смогу справиться с остальными с помощью rvest, но Я пытаюсь часами и просто никуда не денусь.

Спасибо за вашу помощь.

1 Ответ

0 голосов
/ 02 апреля 2020

Можете ли вы попробовать

for(i in 1:length(urls)) {
  link <- urls[i]
  break
} 
link

вместо?

...