Я пытаюсь прочитать html-код с веб-сайта, чтобы очистить некоторые данные, но получаю странную ошибку.
Вот пример ссылки: www.boxofficemojo.com/movies/?id=avatar.htm
Вот код:
library(RCurl)
library(XML)
library(rvest)
url <- paste0("www.boxofficemojo.com",movies_table[1,1])
webpage <- read_html(url)
gross_data_html <- html_nodes(webpage,".mp_box_content b")
И результаты:
library(RCurl)
library(XML)
library(rvest)
url <- paste0("www.boxofficemojo.com",movies_table[1,1])
webpage <- read_html(url)
> Error: 'www.boxofficemojo.com/movies/?id=avatar.htm' does not exist in current working directory ('C:/Users/Will/Documents').
gross_data_html <- html_nodes(webpage,".mp_box_content b")
> Error in html_nodes(webpage, ".mp_box_content b") : object 'webpage' not found
Почему это происходит? Это как-то связано с типом файла .htm вместо .html?