Я провел анализ настроений с помощью sentiwordnet. Теперь я хочу получить больше информации о том, как я получил эти результаты.
Для анализов я использовал sentimentr
sentiment = sentiment(Tweets$text_dict,
polarity_dt = lexicon::hash_sentiment_sentiword,
by = "tweet_id")
Результаты выглядят так:
head(sentiment)
element_id sentence_id word_count sentiment
1: 1 1 4 0.0000000
2: 2 1 8 0.2651650
3: 2 2 1 -0.5000000
4: 3 1 4 -0.0937500
5: 3 2 8 -0.1104854
6: 4 1 17 0.1788700
Однако я не нашел возможности получить информацию о том, как были получены результаты, то есть какие слова были наиболее распространенными в каждой категории.
Для пакета tidytex
t в нем есть несколько приятных функций. Например, я могу напечатать наиболее распространенные слова для каждой категории и значения их настроений.
library(dplyr)
library(tidytext)
text_df <- Tweets %>%
unnest_tokens(word, text_dict)
text_df %>%
count(word, sort = TRUE)
bing_word_counts = text_df %>%
inner_join(get_sentiments("bing")) %>%
count(word, sentiment, sort = TRUE) %>%
ungroup()
head(bing_word_counts)
word sentiment n
<chr> <chr> <int>
1 thank positive 603
2 delayed negative 545
3 like positive 430
4 great positive 336
5 delay negative 301
6 good positive 298
Есть ли возможность делать такой же анализ с использованием sentiwordnet?