Есть ли какое-либо измерение, которое могло бы помочь увидеть, дает ли качество текста для методов анализа текста после процесса очистки лучшие результаты, например, для lsa из quanteda.textmodels.
Пример из пакета:
library(quanteda.textmodels)
library(quanteda)
library(stm)
quant_dfm <- dfm(data_corpus_irishbudget2010,
remove_punct = TRUE, remove_numbers = TRUE,
remove = stopwords("english"))
и если я использую
quant_dfm2 <- dfm(data_corpus_irishbudget2010,
remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE
remove = stopwords("english"))
Как можно измерить производительность (что лучше)?