Определите, является ли url файлом PDF или HTML в R - PullRequest
1 голос
/ 04 октября 2019

Как и человек, который задал этот вопрос, мне интересно узнать, как определить, указывает ли URL на файл HTML или PDF.

Однако я ищурешение с использованием R - предпочтительно избегая необходимости запускать Python через R (например, используя сетку и решение, связанное выше)!

Ответы [ 2 ]

4 голосов
/ 04 октября 2019

Один из вариантов, который здесь может работать, - использовать curlGetHeaders, который является частью базы R. Он возвращает вектор символов, содержащий все заголовки для данного входного URL. Вы можете сначала выполнить этот ответ для Content-Type, а затем проверить тип содержимого.

url <- "http://www.google.com"
headers <- curlGetHeaders(url)
ct <- headers[grep("Content-Type", headers, ignore.case=TRUE)]
# then check the content type for PDF or HTML
3 голосов
/ 04 октября 2019
install.packages("httr")
library(httr)
r <- GET("http://www.owsiak.org")
my_content_type <- headers(r)['content-type']
if(startsWith(my_content_type[[1]], 'text/html')) {
  print("HTML")
} else if(startsWith(my_content_type[[1]], "image/png")) {
  print("IMAGE")
}

r <- GET("http://www.owsiak.org/wp-content/uploads/2019/08/furie.png")
my_content_type <- headers(r)['content-type']
if(startsWith(my_content_type[[1]], 'text/html')) {
  print("HTML")
} else if(startsWith(my_content_type[[1]], "image/png")) {
  print("IMAGE")
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...