У меня есть пустые документы в матрице терминов моего документа. Мне нужно их удалить. Это код, который я использовал для построения DocumentTermMatrix:
tweets_dtm_tfidf <- DocumentTermMatrix(tweet_corpus, control = list(weighting = weightTfIdf))
И это предупреждение, которое я получаю:
Warning message:
In weighting(x) :
empty document(s): 823 3795 4265 7252 7295 7425 8240 8433 9303 12160 12278 14465 15166 15485 15933 20775 21666 21807 26131 27039 34035 34050 34101
Я попытался удалить эти пустые документы, используя этот код:
rowTotals <- apply(tweets_dtm_tfidf , 1, sum)
dtm_tfidf <- tweets_dtm_tfidf[rowTotals> 0, ]
Вот ошибка, которую я получаю, пытаясь удалить их:
> rowTotals <- apply(tweets_dtm_tfidf , 1, sum)
Error: cannot allocate vector of size 6.8 Gb
Есть идеи, как это сделать? Спасибо за любые предложения заранее.