У меня есть набор данных, который содержит заголовок, и я хочу извлечь из него несколько слов. Я использовал функцию count (), чтобы проверить общее количество вхождений для каждого слова, а затем нанести их на график. Вот код:
install.packages("remotes")
remotes::install_github("tweed1e/werfriends")
library(werfriends)
friends_raw <- werfriends::friends_episodes
library(tidytext)
library(tidyverse)
custom_stop_words <- bind_rows(tibble(word = c("1","2", "one"),
lexicon = c("custom", "custom", "custom")),
stop_words)
friends_raw %>%
unnest_tokens(word, title) %>%
mutate(word = str_remove(word, "'s")) %>%
anti_join(bind_rows(custom_stop_words)) %>%
count(word) %>%
top_n(10) %>%
mutate(word = fct_reorder(word, n)) %>%
ggplot(aes(x = word, y = n)) + geom_col() + coord_flip() +
scale_y_continuous(breaks = seq(0,30,5))
В наборе данных friends_raw
есть также столбец season
для каждого заголовка, и я хотел бы также обозначить сезон, в котором происходят события, с fill
, Проблема в том, что при таком подходе я не знаю, как сохранить столбец season
и выполнить подсчет, получая упорядоченные результаты. Любые подсказки о том, как это сделать?