Высокое стандартное отклонение в анализе semanti c с пакетом sentimentr - PullRequest
0 голосов
/ 07 апреля 2020

Я сделал семантику c Анализ ок. 90.000 онлайн-комментариев с пакетом sentimentr для R. Меня немного удивили невероятно высокие стандартные отклонения индивидуальных показателей полярности. Я провел некоторое исследование, но не смог найти ничего, связанного с этим топи c. У кого-нибудь есть понимание того, почему sd так высоко в некоторых из этих значений? Любая помощь очень ценится.

# Code for the analysis

raw_sentences <- get_sentences(raw_data$comments)

sentiment_analysis <- sentiment_by(raw_sentences, by = NULL, averaging.function = sentimentr::average_downweighted_zero,group.names)

head(sentiment_analysis)

    id  word_count  sd             ave_sentiment
1   1   11          NA             0.000000000
2   2   31          0.11742915    -0.023003653
3   3   235         0.38240904    -0.018734183
4   4   17          0.24982646    -0.063555548
5   5   26          0.07071068     0.054568633
6   6   29          NA            -0.014855627
7   7   68          0.42483338    -0.327851143
8   8   91          0.22426430     0.002520702
9   9   11          0.10864465     0.280947511
10  10  77          0.28847316     0.192525615


...