Когда я хочу оценить свою модель с помощью перекрестной проверки, должен ли я выполнять перекрестную проверку на оригинале (данные, которые не делятся на данные об обучении и тестировании) или на данные об обучении / тестировании?
Я знаю, что данные об обучении используется для подгонки модели и тестирования для оценки. Если я использую перекрестную проверку, я все равно должен разделить данные на обучающие и тестируемые или нет?
features = df.iloc[:,4:-1]
results = df.iloc[:,-1]
x_train, x_test, y_train, y_test = train_test_split(features, results, test_size=0.3, random_state=0)
clf = LogisticRegression()
model = clf.fit(x_train, y_train)
accuracy_test = cross_val_score(clf, x_test, y_test, cv = 5)
Или я должен сделать это так:
features = df.iloc[:,4:-1]
results = df.iloc[:,-1]
clf = LogisticRegression()
model = clf.fit(features, results)
accuracy_test = cross_val_score(clf, features, results, cv = 5)), 2)
Или, может быть, что-то другое?