использует только ICMP, который блокируется в разумных организационных сетях, поскольку злоумышленники используют ICMP как способ эксфильтрации данных и связи с серверами управления и контроля.
не использует заголовок HTTP Host:
, поэтому IP-адрес может отвечать, но целевой виртуальный веб-хост может не работать на нем, и он определенно не проверяет, существует ли путь вцелевой URL.
Вы должны уточнить, что вы хотите, чтобы происходило, когда есть только HTTP-коды состояния, отличные от 200: 299.Следующее делает предположение.
ПРИМЕЧАНИЕ: Вы использовали Amazon в качестве примера, и я надеюсь , что это первый сайт, который просто «пришёл в голову», так как это неэтично и преступление поцарапатьАмазонка и я были бы признательны, если бы мой код не попал в вашу вселенную, если вы на самом деле просто наглый вор контента.Если вы крадете контент, то вряд ли вы будете здесь откровенны, но если у вас есть шанс, что вы оба крадете и обладаете совестью, пожалуйста, дайте мне знать, чтобы я мог удалить этот ответ, чтобы, по крайней мере, другие воры контента могли ».t использовать его.
Вот отдельная функция для проверки URL:
#' @param x a single URL
#' @param non_2xx_return_value what to do if the site exists but the
#' HTTP status code is not in the `2xx` range. Default is to return `FALSE`.
#' @param quiet if not `FALSE`, then every time the `non_2xx_return_value` condition
#' arises a warning message will be displayed. Default is `FALSE`.
#' @param ... other params (`timeout()` would be a good one) passed directly
#' to `httr::HEAD()` and/or `httr::GET()`
url_exists <- function(x, non_2xx_return_value = FALSE, quiet = FALSE,...) {
require("httr", quietly = FALSE, warn.conflicts = FALSE)
# you don't need thse two functions if you're alread using `purrr`
# but `purrr` is a heavyweight compiled pacakge that introduces
# many other "tidyverse" dependencies and this doesnt.
capture_error <- function(code, otherwise = NULL, quiet = TRUE) {
list(result = code, error = NULL),
error = function(e) {
if (!quiet)
message("Error: ", e$message)
list(result = otherwise, error = e)
interrupt = function(e) {
stop("Terminated by user", call. = FALSE)
safely <- function(.f, otherwise = NULL, quiet = TRUE) {
function(...) capture_error(.f(...), otherwise, quiet)
sHEAD <- safely(httr::HEAD)
sGET <- safely(httr::GET)
# Try HEAD first since it's lightweight
res <- sHEAD(x, ...)
if (is.null(res$result) ||
((httr::status_code(res$result) %/% 200) != 1)) {
res <- sGET(x, ...)
if (is.null(res$result)) return(NA) # or whatever you want to return on "hard" errors
if (((httr::status_code(res$result) %/% 200) != 1)) {
if (!quiet) warning(sprintf("Requests for [%s] responded but without an HTTP status code in the 200-299 range", x))
} else {
) -> some_urls
exists = sapply(some_urls, url_exists, USE.NAMES = FALSE),
stringsAsFactors = FALSE
) %>% dplyr::tbl_df() %>% print()
## A tibble: 5 x 2
## exists some_urls
## <lgl> <chr>
## 1 NA http://content.thief/
## 2 FALSE
## 3 TRUE…
## 4 TRUE…
## 5 TRUE…
## Warning message:
## In FUN(X[[i]], ...) :
## Requests for [] responded but without an HTTP status code in the 200-299 range