Я сейчас перебираю немецкие новостные статьи о короне. К сожалению, когда я использую мои текущие селекторы, я не могу получить доступ к каждой статье, потому что некоторые из них не бесплатны (-> очистка URL невозможна). Я все еще хочу продолжить l oop, чтобы очистить время, название и URL всех оставшихся статей.
Вот мой код:
library(rvest)
library(tidyverse)
library(data.table)
library(plyr)
map_dfc(.x = c("span.Headline", ".Date"),
.f = function(x) {read_html("https://www.faz.net/suche/s13.html?BTyp=redaktionelleInhalte&allboosted=&author=Vorname+Nachname&boostedresultsize=%24boostedresultsize&cid=&from=TT.MM.JJJJ&index=&query=Corona&resultsPerPage=40&sort=date&to=13.03.2020&username=Benutzername") %>%
html_nodes(x) %>%
html_text()}) %>%
bind_cols(url = read_html("https://www.faz.net/suche/s13.html?BTyp=redaktionelleInhalte&allboosted=&author=Vorname+Nachname&boostedresultsize=%24boostedresultsize&cid=&from=TT.MM.JJJJ&index=&query=Corona&resultsPerPage=40&sort=date&to=13.03.2020&username=Benutzername") %>%
html_nodes("#FAZContentRightInner > div.SuchergebnisListe > div:nth-child(n) > a") %>%
html_attr("href")) %>%
setNames(nm = c("title", "time", "url")) -> temp
Я получаю следующее ошибка:
Error: Argument 2 must be length 40, not 20
Ссылки, к которым я не могу получить доступ, должны быть заполнены символом NA, чтобы я мог работать с фреймом данных. Заранее большое спасибо.