Измерьте качество текста для анализа текста после очистки - PullRequest
0 голосов
/ 18 июня 2020

Есть ли какое-либо измерение, которое могло бы помочь увидеть, дает ли качество текста для методов анализа текста после процесса очистки лучшие результаты, например, для lsa из quanteda.textmodels.

Пример из пакета:

library(quanteda.textmodels)
library(quanteda)
library(stm)
quant_dfm <- dfm(data_corpus_irishbudget2010,
                 remove_punct = TRUE, remove_numbers = TRUE,
                 remove = stopwords("english"))

и если я использую

quant_dfm2 <- dfm(data_corpus_irishbudget2010,
                 remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE
                 remove = stopwords("english"))

Как можно измерить производительность (что лучше)?

1 Ответ

3 голосов
/ 18 июня 2020

В следующей версии quANTa (доступной на Github) добавлен textstat_summary(). Вы можете использовать его, чтобы проверить чистоту текстов:

library(quanteda)
library(quanteda.textmodels)
quant_dfm <- dfm(data_corpus_irishbudget2010,
                 remove_punct = TRUE, remove_numbers = TRUE,
                 remove = stopwords("english"))
textstat_summary(quant_dfm)

#                     document chars sents tokens types puncts numbers symbols urls tags emojis
# 1        Lenihan, Brian (FF)    NA    NA   4157  1549      0       0      75    0    0      0
# 2       Bruton, Richard (FG)    NA    NA   1824   855      0       0      18    0    0      0
# 3         Burton, Joan (LAB)    NA    NA   2938  1371      0       0      49    0    0      0
# 4        Morgan, Arthur (SF)    NA    NA   3175  1349      0       0      42    0    0      0
# 5          Cowen, Brian (FF)    NA    NA   3107  1376      0       0      38    0    0      0
# 6           Kenny, Enda (FG)    NA    NA   1848   959      0       0      20    0    0      0
...