Я использовал R, чтобы выполнить некоторые операции по очистке веб-страниц, моя программа изначально работала, но с тех пор остановилась. Ниже приведен код, который я сейчас использую, чтобы попытаться очистить URL-адреса для результатов поиска, которые отображаются в поисковой системе Google для данного поиска. Возвращаемая ошибка - символ (0). Код отлично работает для других веб-сайтов, я что-то упустил или Google заблокировал меня?
getWebsite <- function(name)
{
url = URLencode(paste0("https://www.google.com/search?q=",name))
page <- html(url)
results <- page %>%
html_nodes("cite") %>%
html_text()
return(as.character(result))
}
dataset$GoogleURL = sapply(dataset$SearchField,getWebsite)
dataset$SearchField
- это просто наборы данных с некоторыми элементами поиска, которые, я надеюсь, пройдут через l oop. Например, если в качестве элемента поиска указано «r cran», я надеялся, что функция вернет URL-адрес поиска Google в этом примере как «https://cran.r-project.org/»
Спасибо за вашу помощь .