Создать корпус с одним файлом (веб-страница) - PullRequest
1 голос
/ 22 марта 2012

Я хочу прочитать один файл (это HTML-документ) с моего компьютера и сохранить его в корпусе (я использую пакет tm).

У вас есть какое-нибудь решение для этого?

Вот что я попробовал:

data<-read.csv(fileName)
c2<-Corpus(VectorSource(data))

это в основном работает, но иногда я получаю сообщение об ошибке: больше столбцов, чем имен столбцов

Полагаю, я не должен использовать read.csv для веб-страницы, так как я не нашел лучшего решения.

Спасибо за вашу помощь =)

1 Ответ

7 голосов
/ 22 марта 2012

Веб-страница определенно не соответствует спецификациям, которые должен выполнять CSV. Вместо этого вы, вероятно, захотите использовать функцию readHTMLTable из пакета XML.


Это захват с реальной веб-страницы, но это должна быть та же идея

file <- "http://xkcd.com/"
dat <- readLines(file)
c2 <- Corpus(VectorSource(dat))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...