Как я узнаю, что RepeatedStratifiedKFold действительно работает как надо? - PullRequest
1 голос
/ 14 марта 2020

Я пытаюсь выбрать метод для разделения моих данных на наборы поездов и тестов.

Согласно документации Scikit-Learn, RepeatedStratifiedKFold представляет собой:

Повторный стратифицированный K-Fold перекрестный валидатор. Повторяет стратифицированную K-Fold n раз с различной рандомизацией в каждом повторении.

Однако, когда я применяю метод CV для набора данных, состоящего из 1000 наблюдений, например, с 5 сгибами и 100 повторениями,

rskf = RepeatedStratifiedKFold(n_splits=5, n_repeats=100, random_state=None)

for train_index, test_index in rskf.split(X, y):

   X_train, _X_test = X[train_index], X[test_index]

   y_train, y_test = y[train_index], y[test_index]

А затем взгляните на набор x_train, я вижу только 800 наблюдений (4 сгиба поезда). Разве он не должен содержать все 100 наборов поездов по числу повторений?

Мой второй вопрос - после разделения ваших данных с помощью метода RepeatedStratifiedKFold, что произойдет, когда вы подгоните свою классификационную модель к наборам данных X_train и y_train? Тренируется ли он на всех 100 повторениях?

Что, если я просто хотел получить F1 балл от модели после тестирования? Дает ли мне средний балл за все 100 повторений?

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...