Как я могу очистить несколько URL при использовании read_html
в rvest
? Цель состоит в том, чтобы получить один документ, состоящий из текстовых тел из соответствующих URL-адресов, по которым можно выполнять различные анализы.
Я попытался объединить URL-адреса:
url <- c("https://www.vox.com/","https://www.cnn.com/")
page <-read_html(url)
page
story <- page %>%
html_nodes("p") %>%
html_text
После read_html
получить ошибку:
Error in doc_parse_file(con, encoding = encoding, as_html = as_html, options = options) :
Expecting a single string value: [type=character; extent=3].
Не удивлен, поскольку read_html
, вероятно, обрабатывает только один путь за раз. Однако можно ли использовать другую функцию или преобразование, чтобы можно было одновременно очистить несколько страниц?