Извлечение значения игрока из этой сети в R - PullRequest
0 голосов
/ 16 марта 2019

Мне просто интересно, возможно ли извлечь данные с этой страницы:

https://www.jornadaperfecta.com/

Я просто хочу, чтобы R брал каждого игрока (с вкладки "equipo" или отсюда:https://www.jornadaperfecta.com/jugadores/?pagina=1) и добавьте число из «Valor de mercado» в таблицу рядом с именем игрока.

Не знаю, возможно ли это.

Извините за мойАнглийский.

Я так понял, но он слишком медленный:

library(rvest)

urls <- list("https://www.jornadaperfecta.com/equipo/alaves/", "https://www.jornadaperfecta.com/equipo/athletic/" , "https://www.jornadaperfecta.com/equipo/atletico/" , "https://www.jornadaperfecta.com/equipo/barcelona/" , "https://www.jornadaperfecta.com/equipo/betis/" , "https://www.jornadaperfecta.com/equipo/celta/" , "https://www.jornadaperfecta.com/equipo/eibar/", "https://www.jornadaperfecta.com/equipo/espanyol/", "https://www.jornadaperfecta.com/equipo/getafe/", "https://www.jornadaperfecta.com/equipo/girona/", "https://www.jornadaperfecta.com/equipo/huesca/", "https://www.jornadaperfecta.com/equipo/leganes/" ,"https://www.jornadaperfecta.com/equipo/levante/" , "https://www.jornadaperfecta.com/equipo/rayo_vallecano/", "https://www.jornadaperfecta.com/equipo/real_madrid/", "https://www.jornadaperfecta.com/equipo/real_sociedad/", "https://www.jornadaperfecta.com/equipo/sevilla/" ,"https://www.jornadaperfecta.com/equipo/valencia/", "https://www.jornadaperfecta.com/equipo/valladolid/","https://www.jornadaperfecta.com/equipo/villarreal/")

equipos <- vector("list", length = 20)

for (i in 1:length(urls)){
  url <- urls[[i]]
  tmp <- read_html(url)
  links_jugadores <- tmp %>% html_nodes("[itemprop=name]") %>% html_nodes("a") %>% html_attr("href")
  equipos[[i]] <- data.frame(matrix(NA, nrow=length(links_jugadores), ncol=2))
}
for (i in 1:20){
  url <- urls[[i]]
  tmp <- read_html(url)
  links_jugadores <- tmp %>% html_nodes("[itemprop=name]") %>% html_nodes("a") %>% html_attr("href")
  for (j in 1:length(links_jugadores)){
  urltmp <- links_jugadores[j]
  datatmp <- read_html(urltmp)
  equipo[j,1] <- datatmp %>% html_nodes("[itemprop=name]") %>% html_text() %>% "["(2)
  equipo[j,2] <- datatmp  %>% html_nodes("[itemprop=netWorth]") %>% html_text()
  equipos[[i]] <- equipo
  }
}
...