У меня есть корпус, который я создал с помощью пакета TM, где я применил все свои преобразования и готов преобразовать его обратно во фрейм данных.
Когда я использую
twit[[1]]$content
Я вижу свои данные. Однако, когда я пытаюсь удалить его из списка, я получаю NA для всех моих записей.
twitCln <- data.frame(text=unlist(sapply(twit, '[', "content")), stringsAsFactors=F)
Связанный вопрос Цикл в корпусе без потери структуры корпуса обсуждается после единственного ответа, который имеет ту же проблему, но, похоже, не имеет разрешения.
Вот некоторый воспроизводимый код.
library(tm)
bbTwit <- as.data.frame(c("Text Line One!", "Text Line 2"), stringsAsFactors = F)
colnames(bbTwit) <- 'Contents'
bbTwit$doc_id <- row.names(bbTwit)
twit <- bbTwit[c('doc_id','Contents')]
colnames(twit) <- c('doc_id','text')
twit <-Corpus(DataframeSource(data.frame(twit)))
twit <-tm_map(twit, removePunctuation)
twit <-tm_map(twit, stripWhitespace)
twit[[1]]$content
twitCln <- data.frame(text=unlist(sapply(twit, '[', "content")), stringsAsFactors=F)
Ожидаемым результатом будет кадр данных с двумя наблюдениями, где «Первая строка текста» будет первой записью, а «Вторая строка текста» - второй. То, что я получаю, это два наблюдения NA