Как добавить книгу и раздел в результаты pairwise_cor? - PullRequest
0 голосов
/ 16 января 2019

Мне нужно иметь возможность отображать другие столбцы в результирующей таблице функции pairwise_cor в R.

Я основал свой код на примерах pairwise_cor в "Text Mining with R", и они отлично работают. У меня проблема в том, что я хочу внести идентифицирующие поля в таблицу. В настоящее время, когда я запускаю функцию pairwise_cor, она возвращает таблицу из трех столбцов, содержащую «item1», «item2» и «correlation». Используя пример, содержащийся в книге «Text Mining with R», я хотел бы иметь возможность перенести столбцы «Book» и «Section» в кадр выходных данных pairwise_cor. Таким образом, я могу показать, откуда берутся комбинации «item1» и «item2».

library(dplyr)
library(tidyr)
library(tidytext)
library(ggplot2)
library(igraph)
library(ggraph)
library(widyr)

austen_section_words <- austen_books() %>%
filter(book == "Pride & Prejudice") %>%
mutate(section = row_number() %/% 10) %>%
filter(section > 0) %>%
unnest_tokens(word, text) %>%
filter(!word %in% stop_words$word)

austen_section_words


# A tibble: 37,240 x 3
   book              section word        
   <fct>               <dbl> <chr>       
1 Pride & Prejudice       1 truth       
2 Pride & Prejudice       1 universally 
3 Pride & Prejudice       1 acknowledged
4 Pride & Prejudice       1 single      
5 Pride & Prejudice       1 possession  
6 Pride & Prejudice       1 fortune     
7 Pride & Prejudice       1 wife        
8 Pride & Prejudice       1 feelings    
9 Pride & Prejudice       1 views       
10 Pride & Prejudice       1 entering    
# ... with 37,230 more rows


word_cors <- austen_section_words %>%
  group_by(word) %>%
  filter(n() >= 20) %>%
  pairwise_cor(word, section, sort = TRUE)

word_cors


# A tibble: 154,842 x 3
item1     item2     correlation
<chr>     <chr>           <dbl>
1 bourgh    de              0.951
2 de        bourgh          0.951
3 pounds    thousand        0.701
4 thousand  pounds          0.701
5 william   sir             0.664
6 sir       william         0.664
7 catherine lady            0.663
8 lady      catherine       0.663
9 forster   colonel         0.622
10 colonel   forster         0.622
# ... with 154,832 more rows

Я хотел бы включить столбцы "книга" и "раздел" в таблицу корреляции.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...