Как преобразовать DataFrame в список, а затем в корпус? В чем разница между Vcorpus и Corpus в R? - PullRequest
0 голосов
/ 02 мая 2020

Я новичок в обучении анализу настроений с использованием твиттеров Twitter с использованием R. Когда я извлекаю твиты в r, они относятся к типу списка, но мне нужно преобразовать их в фрейм данных, чтобы рассматривать только один столбец с текстовым типом только потому, что другой типы не имеют значения для моего исследования, такие как имя экрана, созданный, replyToSID и другие, и, следовательно, я создал фрейм данных и сохранил только один столбец с текстом.

но, когда я преобразовываю фрейм данных в списке для дальнейшего конвертирования его в корпус для очистки данных с использованием tm. я получаю вывод, который я ожидаю в одном списке, чтобы сделать свое исследование. ниже приведены мои строки кода ..

covid_tweets <- searchTwitter('#COVID-19', n = 100, since = '2020-02-01')
options(stringsAsFactors = FALSE)

df_tweets <- twListToDF(covid_tweets)
df_text_tweets <- df_tweets[-c(2:16)]
View(df_text_tweets)

library(BBmisc)
data<-convertRowsToList(df_text_tweets)
datacorpus <- Corpus(VectorSource(data))

Covid_data<-tm_map(datacorpus, stripWhitespace)
Covid_data<-tm_map(Covid_data,tolower)
Covid_data<-tm_map(Covid_data,removeNumbers)
Covid_data<-tm_map(Covid_data,removePunctuation)
Covid_data<-tm_map(Covid_data,removeWords, stopwords('english'))

вывод не является удовлетворительным .. когда я использую функцию просмотра, я вижу 1 с 2 списком, то есть с контентом и метаданными. Мне просто нужен только текст в выводе в виде списка ..

Если вам нужна дополнительная информация, пожалуйста, не стесняйтесь спрашивать меня ... или объясните мне, как я просто преобразовываю твиты в датафрейм, затем в список, затем создаю корпус и очистка данных с помощью тм. Заранее признателен.

прилагается, скриншоты

вывод твитов df код, который я запускал

...