Будет полезно для вас и других, если все ваши данные будут доступны вместе с вашим кодом - например, использование пакета quanteda для dfm (). Если основной текст настроен правильно, dfm () даст вам то, что вы ищете - это именно то, для чего он настроен. Вот симуляция:
library(tm)
library(quanteda)
# install.packages("readtext")
library(readtext)
doc1 <- "COVID-19 can be beaten if all ensure social distance, social distance is critical"
doc2 <- "COVID-19 can be defeated through early self isolation, self isolation is your responsibility"
doc3 <- "Corona Virus can be beaten through early detection & slowing of spread, Corona Virus can be beaten, Yes, Corona Virus can be beaten"
doc4 <- "Corona Virus can be defeated through maximization of social distance"
write.table(doc1,"doc1.txt",sep="\t",row.names=FALSE, col.names = F)
write.table(doc2,"doc2.txt",sep="\t",row.names=FALSE, col.names = F)
write.table(doc3,"doc3.txt",sep="\t",row.names=FALSE, col.names = F)
write.table(doc4,"doc4.txt",sep="\t",row.names=FALSE, col.names = F)
# save above into your WD
getwd()
txt <- readtext(paste0("Your WD/docs", "/*"))
txt
corp <- corpus(txt)
x <- dfm(corp)
View(x)
Если проблема заключается в форматировании / очистке ваших данных, чтобы вы могли запустить dfm (), то вам нужно опубликовать новый вопрос, который предоставляет необходимые данные о ваших данных.