R webscraping с rvest: фильтрация результатов поиска - PullRequest
0 голосов
/ 10 октября 2018

Я супер новичок в пакете rvest.Я пытаюсь отфильтровать результаты поиска из Bing.Я не заинтересован в рекламе.Используя Selectorgadget, я идентифицировал их с помощью тега p ".b_adSlug".Как мне их удалить?Вот код:

#load data
d <-read.csv("companyNamesTest.csv")
c <- as.character(d$Name)

# Function for getting website.
getWebsite <- function(name)
{
 url = URLencode(paste0("https://www.bing.com/search?q=",name))

 page <- read_html(url)

 results <- page %>% 
            html_nodes(xpath = ".b_adSlug") %>% 
            html_text()

 result <- results[1]

 return(as.character(results)) # Return results if you want to see them all.
}
websites = character(length(c))
pb = txtProgressBar(min = 1, max = length(c), initial = 1, style = 3) 

for(j in 1:length(c)){
  setTxtProgressBar(pb, j)
  Sys.sleep(sample(12, 1))
  websites[j] = getWebsite(c[j])
}
df = data.frame(CompanyName = c, Website = websites)

Помощь будет очень ценится:) !!!

...