Исследовательский анализ данных словарь SentiWordNet - PullRequest
0 голосов
/ 05 января 2019

Я провел анализ настроений с помощью sentiwordnet. Теперь я хочу получить больше информации о том, как я получил эти результаты.

Для анализов я использовал sentimentr

sentiment = sentiment(Tweets$text_dict, 
                      polarity_dt = lexicon::hash_sentiment_sentiword, 
                      by = "tweet_id") 

Результаты выглядят так:

head(sentiment)
   element_id sentence_id word_count  sentiment
1:          1           1          4  0.0000000
2:          2           1          8  0.2651650
3:          2           2          1 -0.5000000
4:          3           1          4 -0.0937500
5:          3           2          8 -0.1104854
6:          4           1         17  0.1788700

Однако я не нашел возможности получить информацию о том, как были получены результаты, то есть какие слова были наиболее распространенными в каждой категории.

Для пакета tidytex t в нем есть несколько приятных функций. Например, я могу напечатать наиболее распространенные слова для каждой категории и значения их настроений.

library(dplyr)
library(tidytext)


text_df <- Tweets %>%
  unnest_tokens(word, text_dict)

text_df %>%
  count(word, sort = TRUE)

bing_word_counts = text_df %>%
  inner_join(get_sentiments("bing")) %>%
  count(word, sentiment, sort = TRUE) %>%
  ungroup()


head(bing_word_counts)


  word    sentiment     n
  <chr>   <chr>     <int>
1 thank   positive    603
2 delayed negative    545
3 like    positive    430
4 great   positive    336
5 delay   negative    301
6 good    positive    298

Есть ли возможность делать такой же анализ с использованием sentiwordnet?

...