Question

У меня есть скрипт, настроенный для запуска в r для извлечения текста из различных веб-страниц на веб-сайте.Однако он продолжает прерываться при запуске, потому что некоторые ссылки появляются в формате PDF.Как мне сказать скрипту игнорировать страницы, которые на самом деле являются PDF-файлами?

Вот что я сейчас запускаю:

url <- "https://www.ahrd.org/"

r <- read_html(url) %>% 
html_nodes('a') %>% 
html_attr('href') 

rdf <- as.data.frame(r)
rdf$leftTwo <- substr(rdf$r, 1, 2)
rdf <- rdf[rdf$leftTwo == "ht",]
r <- as.character(rdf$r)
rm(rdf)

output1 <- r %>% 
map(~{
print(.x)
html_session(url) %>% 
  jump_to(.x) %>% 
  read_html() %>% 
  html_nodes('body') %>% 
  html_text() %>% 
  toString()
})

Ошибка в r при анализе / просмотре веб-страниц, когда страница представляет собой PDF - как мне пропустить?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Ошибка в r при анализе / просмотре веб-страниц, когда страница представляет собой PDF - как мне пропустить?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы