Question

Я пытаюсь провести простой анализ настроений в документах PDF в R. Вот код, который у меня есть.

library(dplyr)
library(stringr)
library(pdftools)
library(tidytext)

text <- pdf_text("born2017.pdf")

text_df <- data_frame(line = 1:4, text = text)

text_df <- text_df %>%
  unnest_tokens(word, text)

text_df %>%
  count(word, sort = TRUE)

bing_word_counts <- text_df %>%
  inner_join(get_sentiments("bing")) %>%
  count(word, sentiment, sort = TRUE) %>%
  ungroup()


bing_word_counts

, который дает мне такую таблицу

A tibble: 115 x 3
   word        sentiment     n
   <chr>       <chr>     <int>
 1 promises    positive    176
 2 promise     positive    115
 3 significant positive     37
 4 regression  negative     30
...with 105 more rows

единственное, что мне нужно сделать сейчас, - это получить частоту положительных и отрицательных слов, чего я не могу сделать.Я стремлюсь к чему-то подобному -

Sentiment  Frequency
Positive    865
Negative    564

Другими словами, сколько слов в документе было положительным, а сколько - отрицательным.Извините, если это кажется простым вопросом, но я абсолютный новичок в R и чувствую себя немного растерянным.У меня есть способ, который я спросил, это имеет смысл.

Подсчет позитивных слов в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Подсчет позитивных слов в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы