Очистка всех ссылок с каждого результата страницы, где каждый результат имеет уникальный идентификатор в RSelenium - PullRequest
0 голосов
/ 09 апреля 2019

Я хочу использовать RSelenium, чтобы кликать по каждому результату страницы. Он открывает URL-адрес, находит элементы с указанным XPath, а затем извлекает каждую ссылку с атрибутом href. Однако каждый результат страницы привязан к определенному уникальному идентификатору. Хотя я предоставил список, содержащий все уникальные идентификаторы, он все еще не работает. ниже мои коды, которые я сделал.

Я очень ценю, если вы поможете мне с этой проблемой.

#Step 1: Identifying the URL and Page Structure  
sapply(2:20, function(x){
  url <-"https://toimitilat.kauppalehti.fi/List?t=81%2C82%2C83%2C84&c=2&mhp=1&on=PublishDate&od=-1&p="
  paste0(url, x) }) -> urls

#Step 2: Scraping all the Links from Each Page Result
rD <- rsDriver(browser=c("chrome"), chromever="73.0.3683.68")
remDr <- rD$client
df_all <- data.frame()
for(i in 1:(length(urls))) {
  remDr$navigate(paste0(urls[[i]]))
  base::Sys.sleep   (1)
  links <- remDr$findElements(using = "xpath", value = '//*[@id="normallist"]')
  df <- data.frame(link = unlist(sapply(links, function(x){x$getElementAttribute('href')})))
  Sys.sleep(1)
  df_all <- rbind(df_all, df)
}
df_all
...