Question

Как и человек, который задал этот вопрос, мне интересно узнать, как определить, указывает ли URL на файл HTML или PDF.

Однако я ищурешение с использованием R - предпочтительно избегая необходимости запускать Python через R (например, используя сетку и решение, связанное выше)!

Tim Biegeleisen · Answer 1 · 04 октября 2019

Один из вариантов, который здесь может работать, - использовать curlGetHeaders, который является частью базы R. Он возвращает вектор символов, содержащий все заголовки для данного входного URL. Вы можете сначала выполнить этот ответ для Content-Type, а затем проверить тип содержимого.

url <- "http://www.google.com"
headers <- curlGetHeaders(url)
ct <- headers[grep("Content-Type", headers, ignore.case=TRUE)]
# then check the content type for PDF or HTML

Oo.oO · Answer 2 · 04 октября 2019

install.packages("httr")
library(httr)
r <- GET("http://www.owsiak.org")
my_content_type <- headers(r)['content-type']
if(startsWith(my_content_type[[1]], 'text/html')) {
  print("HTML")
} else if(startsWith(my_content_type[[1]], "image/png")) {
  print("IMAGE")
}

r <- GET("http://www.owsiak.org/wp-content/uploads/2019/08/furie.png")
my_content_type <- headers(r)['content-type']
if(startsWith(my_content_type[[1]], 'text/html')) {
  print("HTML")
} else if(startsWith(my_content_type[[1]], "image/png")) {
  print("IMAGE")
}

Определите, является ли url файлом PDF или HTML в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Определите, является ли url файлом PDF или HTML в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов