Выполните pca на повторных обработках вместо параметров - PullRequest
0 голосов
/ 27 сентября 2018

У меня есть набор данных в форме, в котором столбец 1 содержит название обработок, а остальные столбцы содержат значения для этих обработок, и для каждой обработки есть три копии.Для иллюстрации я создал смоделированный набор данных с использованием набора данных радужной оболочки, как показано ниже:

df <- read.table(text = '"Treatment" "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width"
"treatment_a" 5.1 3.5 1.4 0.2
"treatment_a" 4.9 3 1.4 0.2
"treatment_a" 4.7 3.2 1.3 0.2
"treatment_b" 4.6 3.1 1.5 0.2
"treatment_b" 5 3.6 1.4 0.2
"treatment_b" 5.4 3.9 1.7 0.4
"treatment_c" 4.6 3.4 1.4 0.3
"treatment_c" 5 3.4 1.5 0.2
"treatment_c" 4.4 2.9 1.4 0.2
"treatment_d" 4.9 3.1 1.5 0.1
"treatment_d" 5.4 3.7 1.5 0.2
"treatment_d" 4.8 3.4 1.6 0.2
"treatment_e" 4.8 3 1.4 0.1
"treatment_e" 4.3 3 1.1 0.1
"treatment_e" 5.8 4 1.2 0.2
"treatment_f" 5.7 4.4 1.5 0.4
"treatment_f" 5.4 3.9 1.3 0.4
"treatment_f" 5.1 3.5 1.4 0.3
"treatment_g" 5.7 3.8 1.7 0.3
"treatment_g" 5.1 3.8 1.5 0.3
"treatment_g" 5.4 3.4 1.7 0.2
"treatment_h" 5.1 3.7 1.5 0.4
"treatment_h" 4.6 3.6 1 0.2
"treatment_h" 5.1 3.3 1.7 0.5', header = TRUE)

Я хочу выполнить pca для этого набора данных, используя R таким образом, чтобы на графике вместо переменных отображались обработки с репликами,названия лечения также должны быть помечены на участке.Я искал похожие вопросы по stackoverflow, но не нашел ничего похожего на мою проблему.

1 Ответ

0 голосов
/ 27 сентября 2018

Исходный ответ

Вы хотите построить точечную диаграмму с нанесением первого и второго основных компонентов на оси x и y соответственно?И затем вы хотите, чтобы точки были отмечены с помощью процедур?Если это так, вы можете дать этому шанс.Я использую пакет ggplot2.

Я также добавил цветовую эстетику в горшок.Не стесняйтесь отбросить эту часть, если вы не хотите этого.

df <- read.table(text = '"Treatment" "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width"
"treatment_a" 5.1 3.5 1.4 0.2
"treatment_a" 4.9 3 1.4 0.2
"treatment_a" 4.7 3.2 1.3 0.2
"treatment_b" 4.6 3.1 1.5 0.2
"treatment_b" 5 3.6 1.4 0.2
"treatment_b" 5.4 3.9 1.7 0.4
"treatment_c" 4.6 3.4 1.4 0.3
"treatment_c" 5 3.4 1.5 0.2
"treatment_c" 4.4 2.9 1.4 0.2
"treatment_d" 4.9 3.1 1.5 0.1
"treatment_d" 5.4 3.7 1.5 0.2
"treatment_d" 4.8 3.4 1.6 0.2
"treatment_e" 4.8 3 1.4 0.1
"treatment_e" 4.3 3 1.1 0.1
"treatment_e" 5.8 4 1.2 0.2
"treatment_f" 5.7 4.4 1.5 0.4
"treatment_f" 5.4 3.9 1.3 0.4
"treatment_f" 5.1 3.5 1.4 0.3
"treatment_g" 5.7 3.8 1.7 0.3
"treatment_g" 5.1 3.8 1.5 0.3
"treatment_g" 5.4 3.4 1.7 0.2
"treatment_h" 5.1 3.7 1.5 0.4
"treatment_h" 4.6 3.6 1 0.2
"treatment_h" 5.1 3.3 1.7 0.5', header = TRUE)

# run principle components, ignore first column
pr <- prcomp(df[, 2:5])

# run predict to get the first and second principle components
pr_pred <- predict(pr)

# put this into a data frame so we can use ggplot
df2 <- data.frame(Treatment = df$Treatment,
                  pr_pred[, 1:2])

library(ggplot2)

ggplot(data = df2, aes(x = PC1, y = PC2, 
                       colour = Treatment, 
                       label = Treatment)) + 
    geom_text()

enter image description here

Добавлены эллипсы

Чтобы добавить их, нам нужно изменить количество категорий.Мы пойдем с тремя.Надеемся, что в вашем реальном наборе данных будет достаточно нарисовать эллипсы, которые вы ищете.

df_mod <- read.table(text = '"Treatment" "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width"
"treatment_a" 5.1 3.5 1.4 0.2
                 "treatment_a" 4.9 3 1.4 0.2
                 "treatment_a" 4.7 3.2 1.3 0.2
                 "treatment_b" 4.6 3.1 1.5 0.2
                 "treatment_b" 5 3.6 1.4 0.2
                 "treatment_b" 5.4 3.9 1.7 0.4
                 "treatment_c" 4.6 3.4 1.4 0.3
                 "treatment_c" 5 3.4 1.5 0.2
                 "treatment_c" 4.4 2.9 1.4 0.2
                 "treatment_a" 4.9 3.1 1.5 0.1
                 "treatment_a" 5.4 3.7 1.5 0.2
                 "treatment_a" 4.8 3.4 1.6 0.2
                 "treatment_b" 4.8 3 1.4 0.1
                 "treatment_b" 4.3 3 1.1 0.1
                 "treatment_b" 5.8 4 1.2 0.2
                 "treatment_c" 5.7 4.4 1.5 0.4
                 "treatment_c" 5.4 3.9 1.3 0.4
                 "treatment_c" 5.1 3.5 1.4 0.3
                 "treatment_a" 5.7 3.8 1.7 0.3
                 "treatment_a" 5.1 3.8 1.5 0.3
                 "treatment_b" 5.4 3.4 1.7 0.2
                 "treatment_b" 5.1 3.7 1.5 0.4
                 "treatment_c" 4.6 3.6 1 0.2
                 "treatment_c" 5.1 3.3 1.7 0.5', header = TRUE)


pr_mod <- prcomp(df_mod[, 2:5])
pr_pred_mod <- predict(pr_mod)

df2_mod <- data.frame(Treatment = df_mod$Treatment,
                  pr_pred_mod[, 1:2])

ggplot(data = df2_mod, aes(x = PC1, y = PC2, 
                       colour = Treatment, 
                       label = Treatment)) + 
    geom_text() + 
    stat_ellipse(show.legend = FALSE)

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...