Как я могу получить все узлы из файла HTML? - PullRequest
0 голосов
/ 27 апреля 2020

Я хочу удалить все задания по науке данных из Linkedin в Швеции с помощью приведенного ниже кода, и он работает нормально, за исключением узлов, так как я должен получить 199 узлов, но только я получу 25 (первые 25 узлов), есть идеи, почему? большое спасибо

library(XML)
library(RCurl)
library(RSelenium)
library(httr)

#first start the browser 
remDr <- rsDriver(verbose = T,
                  remoteServerAddr = "localhost",
                  port = 4444L,
                  browser=c("firefox"))

rm <- remDr$client

#is it working ?!

rm$getStatus()

#yes it is ready

rm$navigate("https://www.linkedin.com")


rm$findElement(using = "xpath", 
               '//button[@class="search__placeholder--search search-input"]')$clickElement()

rm$findElement(using = "xpath", 
               '//button[@data-searchbar-type="JOBS"]')$clickElement()

rm$findElement(using = "xpath", 
               '//input[@aria-label="Search job titles or companies"]')$sendKeysToElement(list("data scientist"))

rm$findElement(using = "xpath", 
               '//input[@aria-label="Location"]')$sendKeysToElement(list("Sweden",key="enter"))
current_page<- rm$getCurrentUrl()

page <- GET(current_page,
                   useragent = "Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101, Firefox/43.0",
                   followlocation = T,
                   timeout(60))

tpages <- htmlParse(page)

writeLines(as.character(page) , paste0("rPage num.5"))
getwd()
nodes <- xpathSApply(tpages, '//a[@class="result-card__full-card-link"]')
...