Я новичок в обучении анализу настроений с использованием твиттеров Twitter с использованием R. Когда я извлекаю твиты в r, они относятся к типу списка, но мне нужно преобразовать их в фрейм данных, чтобы рассматривать только один столбец с текстовым типом только потому, что другой типы не имеют значения для моего исследования, такие как имя экрана, созданный, replyToSID и другие, и, следовательно, я создал фрейм данных и сохранил только один столбец с текстом.
но, когда я преобразовываю фрейм данных в списке для дальнейшего конвертирования его в корпус для очистки данных с использованием tm. я получаю вывод, который я ожидаю в одном списке, чтобы сделать свое исследование. ниже приведены мои строки кода ..
covid_tweets <- searchTwitter('#COVID-19', n = 100, since = '2020-02-01')
options(stringsAsFactors = FALSE)
df_tweets <- twListToDF(covid_tweets)
df_text_tweets <- df_tweets[-c(2:16)]
View(df_text_tweets)
library(BBmisc)
data<-convertRowsToList(df_text_tweets)
datacorpus <- Corpus(VectorSource(data))
Covid_data<-tm_map(datacorpus, stripWhitespace)
Covid_data<-tm_map(Covid_data,tolower)
Covid_data<-tm_map(Covid_data,removeNumbers)
Covid_data<-tm_map(Covid_data,removePunctuation)
Covid_data<-tm_map(Covid_data,removeWords, stopwords('english'))
вывод не является удовлетворительным .. когда я использую функцию просмотра, я вижу 1 с 2 списком, то есть с контентом и метаданными. Мне просто нужен только текст в выводе в виде списка ..
Если вам нужна дополнительная информация, пожалуйста, не стесняйтесь спрашивать меня ... или объясните мне, как я просто преобразовываю твиты в датафрейм, затем в список, затем создаю корпус и очистка данных с помощью тм. Заранее признателен.
прилагается, скриншоты
вывод твитов df код, который я запускал