Мне нужно иметь возможность отображать другие столбцы в результирующей таблице функции pairwise_cor в R.
Я основал свой код на примерах pairwise_cor в "Text Mining with R", и они отлично работают. У меня проблема в том, что я хочу внести идентифицирующие поля в таблицу. В настоящее время, когда я запускаю функцию pairwise_cor, она возвращает таблицу из трех столбцов, содержащую «item1», «item2» и «correlation». Используя пример, содержащийся в книге «Text Mining with R», я хотел бы иметь возможность перенести столбцы «Book» и «Section» в кадр выходных данных pairwise_cor. Таким образом, я могу показать, откуда берутся комбинации «item1» и «item2».
library(dplyr)
library(tidyr)
library(tidytext)
library(ggplot2)
library(igraph)
library(ggraph)
library(widyr)
austen_section_words <- austen_books() %>%
filter(book == "Pride & Prejudice") %>%
mutate(section = row_number() %/% 10) %>%
filter(section > 0) %>%
unnest_tokens(word, text) %>%
filter(!word %in% stop_words$word)
austen_section_words
# A tibble: 37,240 x 3
book section word
<fct> <dbl> <chr>
1 Pride & Prejudice 1 truth
2 Pride & Prejudice 1 universally
3 Pride & Prejudice 1 acknowledged
4 Pride & Prejudice 1 single
5 Pride & Prejudice 1 possession
6 Pride & Prejudice 1 fortune
7 Pride & Prejudice 1 wife
8 Pride & Prejudice 1 feelings
9 Pride & Prejudice 1 views
10 Pride & Prejudice 1 entering
# ... with 37,230 more rows
word_cors <- austen_section_words %>%
group_by(word) %>%
filter(n() >= 20) %>%
pairwise_cor(word, section, sort = TRUE)
word_cors
# A tibble: 154,842 x 3
item1 item2 correlation
<chr> <chr> <dbl>
1 bourgh de 0.951
2 de bourgh 0.951
3 pounds thousand 0.701
4 thousand pounds 0.701
5 william sir 0.664
6 sir william 0.664
7 catherine lady 0.663
8 lady catherine 0.663
9 forster colonel 0.622
10 colonel forster 0.622
# ... with 154,832 more rows
Я хотел бы включить столбцы "книга" и "раздел" в таблицу корреляции.