Я пытаюсь провести простой анализ настроений в документах PDF в R. Вот код, который у меня есть.
library(dplyr)
library(stringr)
library(pdftools)
library(tidytext)
text <- pdf_text("born2017.pdf")
text_df <- data_frame(line = 1:4, text = text)
text_df <- text_df %>%
unnest_tokens(word, text)
text_df %>%
count(word, sort = TRUE)
bing_word_counts <- text_df %>%
inner_join(get_sentiments("bing")) %>%
count(word, sentiment, sort = TRUE) %>%
ungroup()
bing_word_counts
, который дает мне такую таблицу
A tibble: 115 x 3
word sentiment n
<chr> <chr> <int>
1 promises positive 176
2 promise positive 115
3 significant positive 37
4 regression negative 30
...with 105 more rows
единственное, что мне нужно сделать сейчас, - это получить частоту положительных и отрицательных слов, чего я не могу сделать.Я стремлюсь к чему-то подобному -
Sentiment Frequency
Positive 865
Negative 564
Другими словами, сколько слов в документе было положительным, а сколько - отрицательным.Извините, если это кажется простым вопросом, но я абсолютный новичок в R и чувствую себя немного растерянным.У меня есть способ, который я спросил, это имеет смысл.