Я заметил, что у нас не так много вопросов о Rcrawler, и я подумал, что это отличный инструмент для очистки сайта. Тем не менее, у меня есть проблема, сказав ему, чтобы очистить несколько веб-сайтов, поскольку он может сделать только 3 в настоящее время. Пожалуйста, дайте мне знать, если у кого-то есть опыт с этой проблемой. Спасибо.
Я пытался поместить все URL-адреса в список / вектор, но он все равно этого не делает. Вот мои чистящие коды, чтобы получить заголовок, описание и ключевые слова веб-сайтов.
Rcrawler(Website = c("http://www.amazon.com", "www.yahoo.com", "www.wsj.com"),
no_cores = 3, no_conn = 3, MaxDepth = 0,
ExtractXpathPat = c('/html/head/title', '//meta[@name="description"]/@content', '//meta[@name="keywords"]/@content'),
PatternsName = c("Title", "Description", "Keywords"), saveOnDisk = FALSE)
Если у меня более 3 сайтов, это выдаст мне эту ошибку:
Error in Rcrawler(Website = c("http://www.amazon.com", "www.yahoo.com", :
object 'getNewM' not found