Я использую SMOTE для балансировки количества классов в моем тренировочном наборе. Я хотел бы найти лучшее значение для параметра k_neighbors в SMOTE. Следовательно, я делаю 10-кратное CV (используя Random Forest) для разных значений k. Однако мои результаты показывают, что наилучшие метрики получены для k = 1:
k_neighbors = 1 accuracy = 0.9071794871794872 auc = 0.9814679761122068 f1 = 0.9068615781115973
k_neighbors = 2 accuracy = 0.9019871794871793 auc = 0.9795101906640369 f1 = 0.9016317166947563
k_neighbors = 3 accuracy = 0.8913461538461538 auc = 0.9782199211045365 f1 = 0.891054698701236
k_neighbors = 4 accuracy = 0.8872435897435897 auc = 0.9769114343633574 f1 = 0.8870488458370038
k_neighbors = 5 accuracy = 0.8812820512820514 auc = 0.974811993206224 f1 = 0.8812247895660785
k_neighbors = 6 accuracy = 0.8804487179487179 auc = 0.9739857001972387 f1 = 0.8803152543658429
k_neighbors = 7 accuracy = 0.8753846153846154 auc = 0.9735513916283146 f1 = 0.8752779694843591
k_neighbors = 8 accuracy = 0.8732051282051282 auc = 0.9729294597852289 f1 = 0.8731064837161879
k_neighbors = 9 accuracy = 0.8733333333333334 auc = 0.9719114069690994 f1 = 0.8734247260905008
k_neighbors = 10 accuracy = 0.8718589743589744 auc = 0.9715997150997151 f1 = 0.8718215140004111
Было бы надежным выбрать k_neighbors=1
для передискретизации с SMOTE? Если нет, какое значение я должен выбрать на основе моих результатов?