На всякий случай, если вам нужны все URL-адреса в кадре данных, вы можете использовать следующий код:
library(XML)
library(xml2)
library(httpuv)
library(httr)
library(RCurl)
library(data.table)
library(dplyr)
url <- "https://www.ato.gov.au/sitemap.xml"
xData <- getURL(url)
doc <- xmlParse(xData)
data<-xmlToList(doc)
a<-as.data.frame(unlist(data))
a<-dplyr::filter(a,grepl("http",`unlist(data)`) )
head(a)
Приведенный выше код даст вам кадр данных со списком всех URL-адресов.Мне было просто интересно, что вы также можете использовать программное обеспечение для извлечения URL "Xenu" для извлечения URL-адресов с веб-сайта, которые не включены в карту сайта.Дайте мне знать, если вы застряли где-то посередине.