Код для анализа отношений между ответами на различные вопросы рейтинга в опросе - PullRequest
2 голосов
/ 19 апреля 2019

Моя цель - найти гораздо более простой код, который можно обобщить, который показывает взаимосвязь между ответами на два вопроса опроса. В MWE один вопрос требовал от респондентов ранжировать восемь маркетинговых выборок от 1 до 8, а другой - от девяти атрибутов от 1 до 9. Более высокий рейтинг указывает на то, что респондент предпочитал выбор больше. Вот кадр данных.

structure(list(Email = c("a", "b", "c", "d", "e", "f", "g", "h", 
"i"), Ads = c(2, 1, 1, 1, 1, 2, 1, 1, 1), Alumni = c(3, 2, 2, 
3, 2, 3, 2, 2, 2), Articles = c(6, 4, 3, 2, 3, 4, 3, 3, 3), Referrals = c(4, 
3, 4, 8, 7, 8, 8, 6, 4), Speeches = c(7, 7, 6, 7, 4, 7, 4, 5, 
5), Updates = c(8, 6, 6, 5, 5, 5, 5, 7, 6), Visits = c(5, 8, 
7, 6, 6, 6, 6, 4, 8), `Business Savvy` = c(10, 6, 10, 10, 4, 
4, 6, 8, 9), Communication = c(4, 3, 8, 3, 3, 9, 7, 6, 7), Experience = c(7, 
7, 7, 9, 2, 8, 5, 9, 5), Innovation = c(2, 1, 4, 2, 1, 2, 2, 
1, 1), Nearby = c(3, 2, 2, 1, 5, 3, 3, 2, 2), Personal = c(8, 
10, 6, 8, 6, 10, 4, 3, 3), Rates = c(9, 5, 9, 6, 9, 7, 10, 5, 
4), `Staffing Model` = c(6, 8, 5, 5, 7, 5, 8, 7, 8), `Total Cost` = c(5, 
4, 3, 7, 8, 6, 9, 4, 6)), row.names = c(NA, -9L), class = c("tbl_df", 
"tbl", "data.frame"))

Если числовое ранжирование не может быть использовано для моего решения для расчета отношений (корреляций), пожалуйста, исправьте меня.

Надеясь, что они могут быть использованы, я пришел к следующему коду, который, как я надеюсь, вычисляет матрицу корреляции каждого выбора метода для каждого выбора атрибута.

library(psych)

dataframe2 <- psych::corr.test(dataframe[  , c(2, 9:17)])[[1]][1:10]  # the first method vs all attributes
dataframe3 <- psych::corr.test(dataframe[  , c(3, 9:17)])[[1]][1:10]  # the 2nd method vs all attributes and so on
dataframe4 <- psych::corr.test(dataframe[  , c(4, 9:17)])[[1]][1:10]  
dataframe5 <- psych::corr.test(dataframe[  , c(5, 9:17)])[[1]][1:10]
dataframe6 <- psych::corr.test(dataframe[  , c(6, 9:17)])[[1]][1:10]  
dataframe7 <- psych::corr.test(dataframe[  , c(7, 9:17)])[[1]][1:10]
dataframe8 <- psych::corr.test(dataframe[  , c(8, 9:17)])[[1]][1:10]

# create a dataframe from the rbinded rows
bind <- data.frame(rbind(dataframe2, dataframe3, dataframe4, dataframe5, dataframe6, dataframe7, dataframe8))

Переименовать строки и столбцы:

colnames(bind) <- c("Sel", colnames(dataframe[9:17]))
rownames(bind) <- colnames(dataframe[2:8])

Как я могу выполнить вышеупомянутое более эффективно?

Кстати, фрейм данных связывания также позволяет создавать тепловую карту с пакетом DataExplorer.

library(DataExplorer)

DataExplorer::plot_correlation(bind)

heat map of ranking correlations

1 Ответ

3 голосов
/ 22 апреля 2019

[Резюме]

В рамках нашего обсуждения есть два способа получить данные корреляции.

  1. Использование stats::cor, т.е. cor(subset(dataframe, select = -Email))
  2. Использование psych::corr.test, т.е. corr.test(subset(dataframe, select = -Email))[[1]]

Затем вы можете подкорректировать матрицу корреляции нужными строками и столбцами.

Чтобы использовать DataExplorer::plot_correlation, вы можете просто сделать plot_correlation(dataframe, type = "c"). Примечание: выходная тепловая карта будет включать корреляции для всех столбцов, поэтому вы можете просто игнорировать столбцы, которые не представляют интереса.


[Оригинальный ответ]

## Create data
dataframe <- structure(
  list(
    Email = c("a", "b", "c", "d", "e", "f", "g", "h",  "i"),
    Ads = c(2, 1, 1, 1, 1, 2, 1, 1, 1),
    Alumni = c(3, 2, 2, 3, 2, 3, 2, 2, 2),
    Articles = c(6, 4, 3, 2, 3, 4, 3, 3, 3),
    Referrals = c(4, 3, 4, 8, 7, 8, 8, 6, 4),
    Speeches = c(7, 7, 6, 7, 4, 7, 4, 5, 5),
    Updates = c(8, 6, 6, 5, 5, 5, 5, 7, 6),
    Visits = c(5, 8, 7, 6, 6, 6, 6, 4, 8),
    `Business Savvy` = c(10, 6, 10, 10, 4, 4, 6, 8, 9),
    Communication = c(4, 3, 8, 3, 3, 9, 7, 6, 7),
    Experience = c(7, 7, 7, 9, 2, 8, 5, 9, 5),
    Innovation = c(2, 1, 4, 2, 1, 2, 2, 1, 1),
    Nearby = c(3, 2, 2, 1, 5, 3, 3, 2, 2),
    Personal = c(8, 10, 6, 8, 6, 10, 4, 3, 3),
    Rates = c(9, 5, 9, 6, 9, 7, 10, 5, 4),
    `Staffing Model` = c(6, 8, 5, 5, 7, 5, 8, 7, 8),
    `Total Cost` = c(5, 4, 3, 7, 8, 6, 9, 4, 6)
  ),
  row.names = c(NA, -9L),
  class = c("tbl_df", "tbl", "data.frame")
)

Строго следуя вашему примеру, мы можем сделать следующее:

## Calculate correlation
df2 <- subset(dataframe, select = -Email)
marketing_selections <- names(df2)[1:7]
attribute_selections <- names(df2)[8:16]
corr_matrix <- psych::corr.test(df2)[[1]]
bind <- subset(corr_matrix,
               subset = rownames(corr_matrix) %in% marketing_selections,
               select = attribute_selections)
DataExplorer::plot_correlation(bind)

Correlation Heatmap

ПРЕДУПРЕЖДЕНИЕ

Однако, это то, что вы действительно хотите? psych::corr.test генерирует матрицу корреляции, а DataExplorer::plot_correlation снова вычисляет корреляцию. Это похоже на корреляцию корреляции.

...