Извлечение переменных из нескольких html-файлов с использованием lapply и html_nodes - PullRequest
0 голосов
/ 16 мая 2018

Я скачал несколько html-файлов и сохранил их в папке. Теперь я хотел бы прочитать файлы и извлечь некоторые переменные из каждой из них, а затем сохранить каждую переменную в виде списка.

Однако я получаю сообщение об ошибке: Ошибка в UseMethod ("xml_find_all"): нет применимого метода для xml_find_all, примененного к объекту класса "xml_document"

Я нашел этот вопрос в stackoverflow, который, казалось, точно ответил на мой вопрос: Извлечение значений из нескольких файлов HTML

Однако предоставленный ответ не работает для меня. Не могли бы вы помочь мне выяснить, что я делаю не так?

Мой код следующий:

html <- list.files("C:/Users/[NAME]/Desktop/data", full.names = T)

выводит список ссылок на файлы, которые выглядят так: "C: / Users / [NAME] /Desktop/data/99_html-code.html"

mydata <- lapply(html, function(file) {
  read_html(file) %>% 
    html_nodes('h1') %>% 
    html_text()
 })
...