Давайте сделаем немного Text Mining
Здесь я стою с матрицей терминов документа (из пакета tm
)
dtm <- TermDocumentMatrix(
myCorpus,
control = list(
weight = weightTfIdf,
tolower=TRUE,
removeNumbers = TRUE,
minWordLength = 2,
removePunctuation = TRUE,
stopwords=stopwords("german")
))
Когда я делаю
typeof(dtm)
Я вижу, что это «список», и структура выглядит как
Docs
Terms 1 2 ...
lorem 0 0 ...
ipsum 0 0 ...
... .......
Так что я пытаюсь
wordMatrix = as.data.frame( t(as.matrix( dtm )) )
, который работает для 1000 документов.
Но когда я пытаюсь использовать 40000, это уже не так.
Я получаю эту ошибку:
Fehler in vector(typeof(x$v), nr * nc) : Vektorgröße kann nicht NA sein
Zusätzlich: Warnmeldung:
In nr * nc : NAs durch Ganzzahlüberlauf erzeugt
Ошибка в векторе ...: Вектор не может быть NA Дополнительно: В nr * nc NA, созданные целочисленным переполнением
Итак, я посмотрел на as.matrix, и оказалось, что каким-то образом функция преобразует его в вектор с as.vector, а затем в матрицу.Преобразование в вектор работает, но не из вектора в матрицу.
У вас есть предложения, в чем может быть проблема?
Спасибо, капитан