random_state и перемешать вместе - PullRequest
0 голосов
/ 11 ноября 2018

Я немного запутался здесь из-за использования random_state и shuffle вместе. Я хочу разделить данные без перетасовки. Мне кажется, что, когда я устанавливаю shuffle в False, не имеет значения, какое число я выбираю для random_state, у меня тот же вывод (разбиения одинаковы для random_state 42 или 2, 7, 17 и т. Д.). Зачем?

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,random_state=42,shuffle=False )

Но если shuffle имеет значение True, у меня разные выходы (разбиения) для разных random_states, что имеет смысл.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,random_state=42)

1 Ответ

0 голосов
/ 11 ноября 2018

Если вы установите shuffle в False, train_test_split просто считывает ваши данные в их первоначальном порядке. Поэтому параметр random_state полностью игнорируется.

Пример:

X = [k for k in range(0, 50)] # create array with numbers ranging from 0 to 49
y = X # just for testing
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42, shuffle=False)

print(X_train) // prints [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36]

Как только вы установите shuffle в True, random_state будет использоваться в качестве начального числа для генератора случайных чисел. В результате ваш набор данных будет случайным образом разделен на набор обучающих и тестовых данных.

Пример с random_state = 42:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42, shuffle=True)

print(X_train) // prints [8, 3, 6, 41, 46, 47, 15, 9, 16, 24, 34, 31, 0, 44, 27, 33, 5, 29, 11, 36, 1, 21, 2, 43, 35, 23, 40, 10, 22, 18, 49, 20, 7, 42, 14, 28, 38]

Пример с random_state = 44:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=44, shuffle=True)

print(X_train) // prints [13, 11, 2, 12, 34, 41, 30, 16, 39, 28, 24, 8, 18, 9, 4, 10, 0, 19, 21, 29, 14, 1, 48, 38, 7, 43, 25, 22, 23, 42, 46, 49, 32, 3, 45, 35, 20]
...