Как решить эту проблему с веб-очисткой? - PullRequest
2 голосов
/ 30 апреля 2020

Я пытаюсь очистить веб-страницу в R.

page <- read_html("https://www.imdb.com/chart/top/") 
header_nodes <- html_nodes(page, css = ".titleColumn a" )
rating_nodes <- html_nodes(page, css = "strong")

Я пытаюсь извлечь заголовки и рейтинги mov ie, но получаю эту ошибку:

Ошибка в inDL (x, as.logical (local), as.logical (сейчас), ...): сбой инициализации ICU: U_FILE_ACCESS_ERROR

1 Ответ

3 голосов
/ 30 апреля 2020

Попробуйте использовать это:

library(rvest)
url <- 'https://www.imdb.com/chart/top/'
webpage <- url %>% read_html()

title <- webpage %>% html_nodes('td.titleColumn a') %>% html_text()
title

#[1] "The Shawshank Redemption"                                            
#[2] "The Godfather"                                                       
#[3] "The Godfather: Part II"                                              
#[4] "The Dark Knight"                                                     
#[5] "12 Angry Men"                                                        
#[6] "Schindler's List"                                                    
#[7] "The Lord of the Rings: The Return of the King"             
#...

Чтобы получить оценки:

ratings <- webpage %>% 
            html_nodes('td.ratingColumn strong') %>% 
            html_text() %>% as.numeric()
ratings
#[1] 9.2 9.1 9.0 9.0 8.9 8.9 8.9 .....
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...