Question

У меня есть датафрейм следующим образом .....

df <-data.frame(variableA, variableB, variableC, variableD, variableE)

prcomp(scale(df))
summary(prcomp)

дает следующие результаты

                          PC1    PC2    PC3     PC4     PC5
Cumulative Proportion  0.5127 0.7222 0.8938 0.96075 1.00000

Есть ли способ добавить компьютеры в новый фрейм данных, вверх пока совокупная пропорция не достигнет 85%?

У меня есть несколько Dataframes, для которых я буду использовать sh, они меняются по размеру, но я бы хотел, чтобы 85% были произвольной точкой отсечения.

Len Greski · Answer 1 · 11 апреля 2020

Вот подход для определения компонентов, объясняющий разницу до 85%, с использованием данных spam из пакета kernlab.

library(kernlab)
data(spam)
# log transform independent variables, ensuring all values above 0
princomp <- prcomp(log10(spam[,-58]+1))
stats <- summary(princomp)
# extract variable importance and list items explaining up to 85% variance
importance <- stats$importance[3,]
importance[importance <= 0.85]

... и выходные данные:

> importance[importance <= 0.85]
    PC1     PC2     PC3     PC4     PC5     PC6     PC7     PC8     PC9    PC10    PC11 
0.49761 0.58021 0.63101 0.67502 0.70835 0.73188 0.75100 0.76643 0.78044 0.79368 0.80648 
   PC12    PC13    PC14 
0.81886 0.83046 0.84129 
>

Мы можем получить значения коэффициентов для первых 14 компонентов и сохранить их в виде фрейма данных следующим образом.

resultNames <- names(importance[importance <= 0.85])
# return factor scores 
x_result <- as.data.frame(princomp$x[,resultNames])
head(x_result)

... и вывод:

> head(x_result)
         PC1         PC2          PC3          PC4          PC5         PC6         PC7
1  0.7364988  0.19181730  0.041818854 -0.009236399  0.001232911  0.03723833 -0.01144332
2  1.3478167  0.22953561 -0.149444409  0.091569400 -0.148434128 -0.01923707 -0.07119210
3  2.0489632 -0.02668038  0.222492079 -0.107120738 -0.092968198 -0.06400683 -0.07078830
4  0.4912016  0.20921288 -0.002072148  0.015524007 -0.002347262 -0.14519336 -0.09238828
5  0.4911676  0.20916725 -0.002122664  0.015467369 -0.002373622 -0.14517812 -0.09243136
6 -0.2337956 -0.10508875  0.187831101 -0.335491660  0.099445713  0.09516875  0.11234080
          PC8          PC9        PC10        PC11        PC12         PC13        PC14
1 -0.08745771  0.079650230 -0.14450436  0.15945517 -0.06490913 -0.042909658  0.05739735
2  0.00233124 -0.091471125 -0.10304536  0.06973190  0.09373344  0.003069536  0.02892939
3 -0.10888375  0.227437609 -0.07419313  0.08217271 -0.12488575  0.150950134  0.05180459
4 -0.15862241  0.003044418  0.01609690  0.01720151  0.02313224  0.142176889 -0.04013102
5 -0.15848785  0.002944493  0.01606874  0.01725410  0.02304496  0.142527110 -0.04007788
6 -0.13790588  0.197294502  0.07851300 -0.08131269 -0.02091459  0.246810914 -0.01869192
>

Чтобы объединить данные с исходным фреймом данных, мы можем использовать cbind().

mergedData <- cbind(spam,x_result)

user12728748 · Answer 2 · 11 апреля 2020

Вы можете извлечь порог из сводки, например, так:

getMinPCs <- function(mat, thresh=.85){
    return(which(summary(prcomp(scale(mat)))$importance["Cumulative Proportion",] >= thresh)[1])
}

(хотя, очевидно, вы можете sh запустить prcomp только один раз и сделать что-то дополнительно с подмножество в функции)

Мне не ясно, что вы хотите в новом data.frame - возможно, матрицу вращения, которую вы могли бы затем подмножество и вернуть - или подмножество и вернуть весь список:

getMinPCrotations <- function(mat, thresh=.85){
    res_pca <- prcomp(scale(mat))
    nPCs <- which(summary(res_pca)$importance["Cumulative Proportion",] >= thresh)[1]
    sub <- list(sdev=res_pca$sdev[seq_len(nPCs)], 
                rotation=res_pca$rotation[, seq_len(nPCs)],
                center=res_pca$center[seq_len(nPCs)],
                scale=res_pca$scale[seq_len(nPCs)],
                x=res_pca$x[, seq_len(nPCs)]
    )
    # setattr(sub, "class", "prcomp")
    return(sub)
}

rg255 · Answer 3 · 11 апреля 2020

Трудно сказать немного подробнее, но вы можете столкнуться с проблемами, потому что длина результирующего вектора будет отличаться от анализа к анализу. Например, один из них может привести к четырем основным компонентам, отвечающим вашим условиям, а третий - к основным компонентам. Фреймы данных, с другой стороны, прямоугольные angular, поэтому каждая строка должна иметь одинаковую длину, а каждый столбец - одинаковую длину, поэтому вы не можете создать фрейм данных, содержащий 3 столбца в одной строке и 4 в другой.

Пара простых опций с вектором, подобным вашему:

# your vector of pcs
x1 <- summary(prcomp)

1) Создайте фрейм данных, который соответствует максимальному количеству компонентов, полный NA, затем замените соответственно сохраняющие NA, где это необходимо.

# storage df
outDF <- data.frame(matrix(rep(NA, 8), ncol = 4))
# store
outDF[1, x1 < 0.85] <- x1[x1 < 0.85]

2) Хранить в виде списка, поскольку списки не обязательно должны быть прямоугольными angular

# storage list
outList <- list()
# store
outList[[1]] <- x1[x1 < 0.85]

Извлечь PCn из анализа PCA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечь PCn из анализа PCA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы