Ошибка при чтении HTML-кода для веб-сайта в R - PullRequest
0 голосов
/ 05 мая 2018

Я пытаюсь прочитать html-код с веб-сайта, чтобы очистить некоторые данные, но получаю странную ошибку.

Вот пример ссылки: www.boxofficemojo.com/movies/?id=avatar.htm

Вот код:

library(RCurl)
library(XML)
library(rvest)

url <- paste0("www.boxofficemojo.com",movies_table[1,1])

webpage <- read_html(url)

gross_data_html <- html_nodes(webpage,".mp_box_content b")

И результаты:

library(RCurl)
library(XML)
library(rvest)

url <- paste0("www.boxofficemojo.com",movies_table[1,1])

webpage <- read_html(url)
> Error: 'www.boxofficemojo.com/movies/?id=avatar.htm' does not exist in current working directory ('C:/Users/Will/Documents').

gross_data_html <- html_nodes(webpage,".mp_box_content b")
> Error in html_nodes(webpage, ".mp_box_content b") : object 'webpage' not found

Почему это происходит? Это как-то связано с типом файла .htm вместо .html?

1 Ответ

0 голосов
/ 05 мая 2018

Если вы отправляете URL на read_html, ему должно предшествовать "http://",, в противном случае функция будет предполагать, что вход является локальным путем к файлу (который не существует).

Неправильно:

read_html('www.boxofficemojo.com/movies/?id=avatar.htm')

Справа:

read_html('http://www.boxofficemojo.com/movies/?id=avatar.htm')
...