Я создаю матрицу корреляции для очень большой базы данных, которая включает в себя 85 переменных.Мои данные содержат пропущенные значения.
Пока я проанализировал всю БД, вы бы предложили разбить ее на более мелкие разделы?Или при этом пропущенные значения будут влиять на результаты?
corrtest<-round(cor(TEST, method=c("spearman"), use="complete.obs"), 2)
Это код, который я использовал, и затем я сохранил свои данные, используя это:
write.csv(corrtest, "correlation.csv")
Но я также хотел увидетьесли у меня была какая-либо значимая корреляция, я запускал:
corrtest1<-rcorr(as.matrix(TEST), type = "spearman")
и снова сохранял свои данные:
write.csv(corrtest1$P, "pvalue.csv")
Когда я проверяю две матрицы, я не вижу четкого совпадениязначения (например, иногда значение r 0.3
имеет очень низкое значение p).Это нормально?
Неправильно ли я подхожу к этому?
Огромное спасибо за помощь!