Здравствуйте. Я пытаюсь получить некоторые данные из твиттера в модель случайного леса в R. Я постоянно получаю сообщение об ошибке типа файла. Я в версии 1.1.453 R использую Rstudio.
код:
library(dplyr)
library(tidyr)
library(ace)
library(h2o)
library(data.table)
hdfs.kinit()
h2oStart()
tweet.dt <- as.data.table(fread(file = "/tech/home/js87549e/ExtractedTweets.csv", col.names = c('Party','Handle','Tweet')))
tweet.dt$outcome <- 0
tweet.dt$outcome[tweet.dt$Party == "Democrat"] <- 1
tweet.dt$outcome <- as.factor(tweet.dt$outcome)
tweet.dt$Tweet <- as.character(tweet.dt$Tweet)
inp.dt <- as.data.table(tweet.dt %>%
mutate(string = strsplit(Tweet, split = " ")) %>%
unnest(string))
inp.dt$string <- as.factor(inp.dt$string)
dat.dt <- as.data.table(inp.dt[,c(4,5)])
inp.hex <- as.h2o(dat.dt)
Данные: https://www.kaggle.com/kapastor/democratvsrepublicantweets/downloads/democratvsrepublicantweets.zip/4
СООБЩЕНИЕ ОБ ОШИБКЕ:
Невозможно определить тип файла. для /tech/appl/user/js87549e/tmp/RtmpdvNc9d/file2cef348f3bde4.csv_sid_9333_9