Rvest отсутствует узел цикла - PullRequest
0 голосов
/ 13 марта 2020

Я сейчас перебираю немецкие новостные статьи о короне. К сожалению, когда я использую мои текущие селекторы, я не могу получить доступ к каждой статье, потому что некоторые из них не бесплатны (-> очистка URL невозможна). Я все еще хочу продолжить l oop, чтобы очистить время, название и URL всех оставшихся статей.

Вот мой код:

library(rvest)
library(tidyverse)
library(data.table)
library(plyr)

map_dfc(.x = c("span.Headline", ".Date"),
        .f = function(x) {read_html("https://www.faz.net/suche/s13.html?BTyp=redaktionelleInhalte&allboosted=&author=Vorname+Nachname&boostedresultsize=%24boostedresultsize&cid=&from=TT.MM.JJJJ&index=&query=Corona&resultsPerPage=40&sort=date&to=13.03.2020&username=Benutzername") %>% 
            html_nodes(x) %>% 
            html_text()}) %>% 

  bind_cols(url = read_html("https://www.faz.net/suche/s13.html?BTyp=redaktionelleInhalte&allboosted=&author=Vorname+Nachname&boostedresultsize=%24boostedresultsize&cid=&from=TT.MM.JJJJ&index=&query=Corona&resultsPerPage=40&sort=date&to=13.03.2020&username=Benutzername") %>% 
              html_nodes("#FAZContentRightInner > div.SuchergebnisListe > div:nth-child(n) > a") %>% 
              html_attr("href")) %>% 
  setNames(nm = c("title", "time", "url")) -> temp

Я получаю следующее ошибка:

Error: Argument 2 must be length 40, not 20

Ссылки, к которым я не могу получить доступ, должны быть заполнены символом NA, чтобы я мог работать с фреймом данных. Заранее большое спасибо.

...