Я сделал семантику c Анализ ок. 90.000 онлайн-комментариев с пакетом sentimentr для R. Меня немного удивили невероятно высокие стандартные отклонения индивидуальных показателей полярности. Я провел некоторое исследование, но не смог найти ничего, связанного с этим топи c. У кого-нибудь есть понимание того, почему sd так высоко в некоторых из этих значений? Любая помощь очень ценится.
# Code for the analysis
raw_sentences <- get_sentences(raw_data$comments)
sentiment_analysis <- sentiment_by(raw_sentences, by = NULL, averaging.function = sentimentr::average_downweighted_zero,group.names)
head(sentiment_analysis)
id word_count sd ave_sentiment
1 1 11 NA 0.000000000
2 2 31 0.11742915 -0.023003653
3 3 235 0.38240904 -0.018734183
4 4 17 0.24982646 -0.063555548
5 5 26 0.07071068 0.054568633
6 6 29 NA -0.014855627
7 7 68 0.42483338 -0.327851143
8 8 91 0.22426430 0.002520702
9 9 11 0.10864465 0.280947511
10 10 77 0.28847316 0.192525615