Почему стратифицированный kfold генерирует одинаковые разбиения, несмотря на использование разных значений random_state? - PullRequest
0 голосов
/ 28 июня 2018

Я пытаюсь сгенерировать различные стратифицированные сплиты моего набора данных с использованием стратифицированного разбиения kfold и параметра random_state. Однако, когда я использую разные значения random_state, я все равно получаю те же разбиения. Насколько я понимаю, используя разные значения random_state, вы сможете генерировать разные расщепления. Пожалуйста, дайте мне знать, что я делаю неправильно. Вот код.

import numpy as np
X_train=np.ones(10)
Y_train=np.ones(10)

from sklearn.model_selection import StratifiedKFold
skf = StratifiedKFold(n_splits=5,random_state=0)
skf1 = StratifiedKFold(n_splits=5,random_state=100)


trn1=[]
cv1=[]
for train, cv in skf.split(X_train, Y_train):
    trn1=trn1+[train]
    cv1=cv1+[cv]

trn2=[]
cv2=[]
for train, cv in skf1.split(X_train, Y_train):
    trn2=trn2+[train]
    cv2=cv2+[cv]


for c in list(range(0,5)):
    print('Fold:'+str(c+1))
    print(trn1[c])
    print(trn2[c])
    print(cv1[c])
    print(cv2[c])

Вот вывод

Fold:1
[2 3 4 5 6 7 8 9]
[2 3 4 5 6 7 8 9]
[0 1]
[0 1]
Fold:2
[0 1 4 5 6 7 8 9]
[0 1 4 5 6 7 8 9]
[2 3]
[2 3]
Fold:3
[0 1 2 3 6 7 8 9]
[0 1 2 3 6 7 8 9]
[4 5]
[4 5]
Fold:4
[0 1 2 3 4 5 8 9]
[0 1 2 3 4 5 8 9]
[6 7]
[6 7]
Fold:5
[0 1 2 3 4 5 6 7]
[0 1 2 3 4 5 6 7]
[8 9]
[8 9]

1 Ответ

0 голосов
/ 28 июня 2018

Как указано в документации:

random_state: int, экземпляр RandomState или None, необязательно, по умолчанию = None

Если int, random_state - это начальное число, используемое генератором случайных чисел; Если экземпляр RandomState, random_state является генератором случайных чисел; Если None, генератор случайных чисел - это экземпляр RandomState, используемый np.random. Используется, когда shuffle == True .

Так что просто добавьте shuffle=True к своим StratifiedKFold звонкам. Например:

skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=0)
skf1 = StratifiedKFold(n_splits=5, shuffle=True, random_state=100)

Выход:

Fold:1
[0 1 3 4 5 6 7 9]
[0 1 2 3 4 5 8 9]
[2 8]
[6 7]
Fold:2
[0 1 2 3 5 6 7 8]
[0 2 3 4 6 7 8 9]
[4 9]
[1 5]
Fold:3
[0 2 3 4 5 7 8 9]
[0 1 3 5 6 7 8 9]
[1 6]
[2 4]
Fold:4
[0 1 2 4 5 6 8 9]
[1 2 4 5 6 7 8 9]
[3 7]
[0 3]
Fold:5
[1 2 3 4 6 7 8 9]
[0 1 2 3 4 5 6 7]
[0 5]
[8 9]
...