scikit learn функция train_test_split не работает должным образом - PullRequest
0 голосов
/ 05 декабря 2018

Я использую функцию разделения теста поезда для разделения данных для обучения и тестирования, но функция назначает неправильную метку для данных теста отдельного поезда.Вместо назначения метки из ожидаемой строки она назначает метку из 2-й строки из ожидаемой строки.Пожалуйста, дайте мне знать, где я иду не так?

data = pd.read_csv('To_Tanaji.csv')
print(data.columns)
print(data.shape)
#plt.hist(train["DiffCorrectLatRawLat"])
#test = pd.read_csv('test.csv')

#np.polyfit(data['DistanceRaw2GPS'], data['DistanceCorrected2GPS'], 2)
Output= data.DistanceCorrected2GPS
Input=data.DistanceRaw2GPS

X_train, X_test, y_train, y_test = train_test_split(Input, Output, test_size=0.2)

Ответы [ 2 ]

0 голосов
/ 05 декабря 2018

Я не буду предлагать отключать параметр shuffle в вашей функции train_test_split, а держите переменную random_state фиксированной для воспроизводимых разбиений.Лучше разделить случайно, чем разделить, скажем, верхние 20% набора данных могут исказить ваши данные.

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(Input, Output, test_size = 0.20, random_state = 0)

Если метки разделения неверны, вы должны убедиться, что переменные Output и Input назначены правильно или нет.

0 голосов
/ 05 декабря 2018

Функция train_test_split будет перетасовывать ваши данные по умолчанию.Если вы не хотите этого, используйте shuffle = False.

https://scikit -learn.org / stable / modules / made / sklearn.model_selection.train_test_split.html

Если возможно, укажите свои входные данные (шифрованные или нет)) воспроизвести проблему.

...