Я хочу проверить разницу между двумя способами, но я не уверен, является ли это статистически достоверным.
Обе группы, которые я хочу сравнить, имеют 90 баллов AUC и 3 разныхэксперименты (30 каждый).В рамках этих экспериментов я провел 3 классификатора (GBM, RF и DL).Так что для каждого классификатора у меня есть 10 баллов AUC в рамках эксперимента.
Каждый проведенный эксперимент имеет разные размеры выборки, скажем: 4000, 5000 и 8000. Две группы, которые я хочу сравнить, основаны на: Группа 1: Модель со всеми доступными функциями Группа 2: модель со всеми доступными функциями, кроме 1
Какой тест подходит для проверки существенной разницы?
Я уже провел t-тест в R с этимизначения, но я просто не знаю, является ли статистически обоснованным сравнение этих групп.
t.test(c(as.numeric(exp1.fullmodel.GBM_AUCs[1,]), as.numeric(exp2.fullmodel.GBM_AUCs[1,]), as.numeric(exp3.fullmodel.GBM_AUCs[1,]),
as.numeric(exp1.fullmodel.RF_AUCs[1,]), as.numeric(exp2.fullmodel.RF_AUCs[1,]), as.numeric(exp3.fullmodel.RF_AUCs[1,]),
as.numeric(exp1.fullmodel.DL_AUCs[1,]), as.numeric(exp2.fullmodel.DL_AUCs[1,]), as.numeric(exp3.fullmodel.DL_AUCs[1,])),
c(as.numeric(exp1.hyp1.GBM_AUCs[1,]), as.numeric(exp2.hyp1.GBM_AUCs[1,]), as.numeric(exp3.hyp1.GBM_AUCs[1,]),
as.numeric(exp1.hyp1.RF_AUCs[1,]), as.numeric(exp2.hyp1.RF_AUCs[1,]), as.numeric(exp3.hyp1.RF_AUCs[1,]),
as.numeric(exp1.hyp1.DL_AUCs[1,]), as.numeric(exp2.hyp1.DL_AUCs[1,]), as.numeric(exp3.hyp1.DL_AUCs[1,])),
alternative = "two.sided", paired = TRUE)
(exp1.fullmodel.GBM_AUCs[1,]) =
cv_1_valid cv_2_valid cv_3_valid cv_4_valid cv_5_valid cv_6_valid cv_7_valid cv_8_valid cv_9_valid cv_10_valid
auc 0.7103074 0.6666348 0.69151336 0.7666884 0.7400907 0.6940528 0.7088715 0.7011338 0.7298108 0.7589226