Прогноз модели логистической регрессии на тестовых данных отрицательный, а также более одного.Принимая во внимание, что вероятности варьируются от [0,1].
Я масштабировал данные (как обучающие, так и тестовые) с использованием стандартного скейлера и сверх того, который использовал PCA для уменьшения размерности. Используется стратифицированное 5-кратное CV.Trainset устанавливается на модель логистической регрессии для задачи бинарной классификации, и генерируется прогноз.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(pc_train, Y_train,
test_size=0.33, random_state=42)
```````````````````````````````````````Model part
kf = StratifiedKFold(n_splits=5,shuffle=True,random_state=seed)
pred_test_full =0
cv_score =[]
i=1
for train_index,test_index in kf.split(X,y):
print('{} of KFold {}'.format(i,kf.n_splits))
X_train, X_test = X[train_index], X[test_index]
y_train, y_test = y[train_index], y[test_index]
#model
lr = LogisticRegression(C=.3)
lr.fit(X_train,y_train)
score = roc_auc_score(y_test,lr.predict(X_test))
print('ROC AUC score:',score)
cv_score.append(score)
pred_test = lr.predict_proba(x_test)[::,1]
pred_test_full +=pred_test
i+=1
Expected pred_test_full predicted array over test data to be in the range of [0,1] but instead getting -
array([4.06222773e-03, 2.07307776e-05, 1.62214101e-03, ...,
5.92852765e-06, 2.46471149e-07, 6.01245496e-05])