Какая польза от n_splits в StraifiedShuffleSplit из scikit learn? - PullRequest
0 голосов
/ 05 апреля 2020

Я читал книгу «Практическое машинное обучение с Scikit-Learn и Tensorflow» и нашел этот код:

from sklearn.model_selection import StratifiedShuffleSplit
split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

Я хотел бы знать, что делает аргумент n_splits. Я искал везде, но не смог найти удовлетворительный ответ. Заранее спасибо !!

1 Ответ

0 голосов
/ 05 апреля 2020

Как следует из названия, параметр n_splits используется для указания того, сколько раз (в основном, сколько отдельных разбиений) вы хотите, чтобы расщепления происходили.

Например, установка n_splits = 3 сделает l oop сгенерируйте 3 разных разбиения (по одному для каждой итерации), чтобы вы могли выполнять проверку более эффективно.

Установка n_splits = 1 будет mimi c, что будет делать sklearn.model_selection.train_test_split (вместе с упомянутым параметром стратификации ). Документация содержит подробные объяснения каждого параметра для этой функции.

...