Я также преодолел эту проблему в контексте наборов интеллектуального анализа текста больших данных.Не удалось загрузить весь набор данных одновременно.
Здесь возможен другой вариант для таких больших наборов данных.Подход заключается в том, чтобы собрать вектор из одного корпуса документа внутри цикла.После обработки всех подобных документов можно преобразовать этот вектор в один огромный корпус, например, создать на нем DTM.
# Vector to collect the corpora:
webCorpusCollection <- c()
# Loop over raw data:
for(i in ...) {
try({
# Convert one document into a corpus:
webDocument <- Corpus(VectorSource(iconv(webDocuments[i,1], "latin1", "UTF-8")))
#
# Do other things e.g. preprocessing...
#
# Store this document into the corpus vector:
webCorpusCollection <- rbind(webCorpusCollection, webDocument)
})
}
# Collecting done. Create one huge corpus:
webCorpus <- Corpus(VectorSource(unlist(webCorpusCollection[,"content"])))