У меня проблемы с созданием цикла для read_html
и извлечением необходимой мне информации.Мне удалось создать цикл для извлечения из одного веб-сайта.
Например: ниже приведен мой код для извлечения заголовка, описания и ключевых слов с веб-сайта Amazon.
URL <- read_html("http://www.amazon.com")
library(rvest)
results <- URL %>% html_nodes("head")
library(dplyr)
records <- vector("list", length = length(results))
for (i in seq_along(records)) {
title <- xml_contents(results[i] %>% html_nodes("title"))[1] %>% html_text(trim = TRUE)
description <- html_nodes(results[i], "meta[name=description]") %>% html_attr("content")
keywords <- html_nodes(results[i], "meta[name=keywords]") %>% html_attr("content")
records[[i]] <- data.frame(title = title, description = description, keywords = keywords)
}
Но чтоесли у меня есть:
name <- c("amazon", "apple", "usps")
url <- c("http://www.apple.com,
"http://www.amazon.com",
"http://www.usps.com")
webpages <- data.frame(name, url)
Как я могу включить read_html
в существующий цикл, который я создал, чтобы извлечь нужную информацию, а также включить имя URL.
ЖелаемыйВыходной пример
url title description keywords
http://www.apple.com Apple Apple's website description Apple, iPhone, iPad
http://www.amazon.com Amazon Amazon's website description Shopping, Home, Online
http://www.usps.com USPS USPS's website description Shipping, Postage, Stamps
Спасибо за все предложения.