Topi c Modeling: графическое представление слов с наибольшим отличием между двумя темами - PullRequest
0 голосов
/ 03 марта 2020

В Text Mining с R , представлены методы для неконтролируемой классификации документов, таких как сообщения в блогах или новостные статьи. Это работа для топи c моделирования. Я использую коды, включенные в эту ссылку, но я не знаю, как получить рисунок 6.3, «Слова с наибольшей разницей в бета-версии между topi c 2 и topi c 1».

Any предложения, пожалуйста?

1 Ответ

1 голос
/ 03 марта 2020

Эта книга имеет доступный источник, вы можете просто нажать кнопку редактирования и перейти в проект GitHub с текущей страницей для редактирования. Просто перейдите к нужной вам главе (Rmd-файл) и найдите текст, ближайший к изображению.

К счастью, это изображение также было создано с помощью R, так что вы можете просто проверить: здесь

Проводка для полноты:

beta_spread %>%
  group_by(direction = log_ratio > 0) %>%
  top_n(10, abs(log_ratio)) %>%
  ungroup() %>%
  mutate(term = reorder(term, log_ratio)) %>%
  ggplot(aes(term, log_ratio)) +
  geom_col() +
  labs(y = "Log2 ratio of beta in topic 2 / topic 1") +
  coord_flip()
...