У меня есть скрипт, настроенный для запуска в r для извлечения текста из различных веб-страниц на веб-сайте.Однако он продолжает прерываться при запуске, потому что некоторые ссылки появляются в формате PDF.Как мне сказать скрипту игнорировать страницы, которые на самом деле являются PDF-файлами?
Вот что я сейчас запускаю:
url <- "https://www.ahrd.org/"
r <- read_html(url) %>%
html_nodes('a') %>%
html_attr('href')
rdf <- as.data.frame(r)
rdf$leftTwo <- substr(rdf$r, 1, 2)
rdf <- rdf[rdf$leftTwo == "ht",]
r <- as.character(rdf$r)
rm(rdf)
output1 <- r %>%
map(~{
print(.x)
html_session(url) %>%
jump_to(.x) %>%
read_html() %>%
html_nodes('body') %>%
html_text() %>%
toString()
})