Я пытаюсь выбрать метод для разделения моих данных на наборы поездов и тестов.
Согласно документации Scikit-Learn, RepeatedStratifiedKFold представляет собой:
Повторный стратифицированный K-Fold перекрестный валидатор. Повторяет стратифицированную K-Fold n раз с различной рандомизацией в каждом повторении.
Однако, когда я применяю метод CV для набора данных, состоящего из 1000 наблюдений, например, с 5 сгибами и 100 повторениями,
rskf = RepeatedStratifiedKFold(n_splits=5, n_repeats=100, random_state=None)
for train_index, test_index in rskf.split(X, y):
X_train, _X_test = X[train_index], X[test_index]
y_train, y_test = y[train_index], y[test_index]
А затем взгляните на набор x_train, я вижу только 800 наблюдений (4 сгиба поезда). Разве он не должен содержать все 100 наборов поездов по числу повторений?
Мой второй вопрос - после разделения ваших данных с помощью метода RepeatedStratifiedKFold, что произойдет, когда вы подгоните свою классификационную модель к наборам данных X_train и y_train? Тренируется ли он на всех 100 повторениях?
Что, если я просто хотел получить F1 балл от модели после тестирования? Дает ли мне средний балл за все 100 повторений?
Спасибо!