Стратифицированный K кратен одинаковому показателю, присутствующему как в тестовом, так и в действительном наборе - PullRequest
0 голосов
/ 06 февраля 2020

Я пытаюсь выполнить стратифицированную перекрестную проверку в k раз для моего набора данных и хочу сохранить изолированный 10% -ый набор тестов из набора данных и использовать оставшиеся для обучения и проверки. Ниже приведен код, который я пробовал, но получаю несколько индексов тестовых индексов, общих как в обучении, так и в действительном наборе. В идеале этого не должно происходить, так как в начале я разделил набор тестов.

# Splitting into test and tmp set , tmp set to be further split into train and valid

tmp_idX, test_idX = train_test_split(idx,test_size=0.1,random_state=2) 

tmp_Y = np.asarray(grps.iloc[tmp_idX, 0])

skf = StratifiedKFold(n_splits=10, shuffle=True, random_state=1) # do 10 fold xval

for train_idX,valid_idX in skf.split(tmp_idX,tmp_Y): 

    #Define model and fit model

Пожалуйста, дайте мне знать, где я ошибаюсь ..

Заранее спасибо за ваш ответ

...