Я экспериментирую с перекрестной проверкой моей модели, используя два метода: просто используя cross_val_score()
с cv, установленным на некоторое число, например 5, и использую его с KFold
с тасованием. После разделения моих данных на тренировочные и тестовые наборы с использованием train_test_split()
, подгонка моей модели к тренировочному набору
Например,
val_score = cross_val_score(model, X_train, y_train, cv=5)
и
cv = KFold(n_splits=5, shuffle=True)
val_score_with_shuffling = cross_val_score(model, X_train, y_train, cv=cv)
val_score_with_shuffling
намного ниже, чем val_score
, но я не понимаю, почему перетасовка данных так сильно снижает оценку. Я попытался использовать повторную перекрестную проверку с тасованием, и также получил очень низкий балл. Что это показатель, и когда я должен использовать повторную перекрестную проверку с тасованием?