Как очистить несколько сайтов с помощью Rcrawler в R? - PullRequest
0 голосов
/ 27 марта 2019

Я заметил, что у нас не так много вопросов о Rcrawler, и я подумал, что это отличный инструмент для очистки сайта. Тем не менее, у меня есть проблема, сказав ему, чтобы очистить несколько веб-сайтов, поскольку он может сделать только 3 в настоящее время. Пожалуйста, дайте мне знать, если у кого-то есть опыт с этой проблемой. Спасибо.

Я пытался поместить все URL-адреса в список / вектор, но он все равно этого не делает. Вот мои чистящие коды, чтобы получить заголовок, описание и ключевые слова веб-сайтов.

Rcrawler(Website = c("http://www.amazon.com", "www.yahoo.com", "www.wsj.com"),
 no_cores = 3, no_conn = 3, MaxDepth = 0, 
ExtractXpathPat = c('/html/head/title', '//meta[@name="description"]/@content', '//meta[@name="keywords"]/@content'),
 PatternsName = c("Title", "Description", "Keywords"), saveOnDisk = FALSE)

Если у меня более 3 сайтов, это выдаст мне эту ошибку:

Error in Rcrawler(Website = c("http://www.amazon.com", "www.yahoo.com",  : 
  object 'getNewM' not found

1 Ответ

0 голосов
/ 10 июля 2019

Как то так.

library(tidyverse)
library(rvest)

# Create vector
mylist <- c("http://www.amazon.com", "http://www.yahoo.com", "http://www.wsj.com")
# Create the for statement
for (i in mylist)
{ 
  #print(i)
  webpage <- read_html(i)
  print(webpage)

}

Или загрузите каждую страницу в список и проанализируйте список. Наконец, вы можете сохранить свои результаты в формате CSV. Вы должны знать, что удаление большого количества различных веб-страниц почти наверняка приведет к совершенно другим результатам. Я точно могу понять, почему человек захочет просматривать разные URL одного и того же сайта, но я не уверен, что вы получите, просматривая различные URL разных сайтов.

...