Я очень новичок в ML и пытаюсь создать классификатор для несбалансированного бинарного класса для реальной жизненной проблемы. Я пробовал различные модели, такие как регрессия Logisti c, Random Forest, ANN и др. c, но каждый раз я получаю очень высокую точность и вспоминаю (около 94%) данные о поездах и очень плохие (около 1%) для проверки или проверки данных. У меня есть 53 функции и 97094 точек данных. Я попытался настроить гиперпараметры, но, насколько я понимаю, с текущей точностью и отзывом для данных тестирования и проверки, это также не поможет значительно. Может кто-нибудь, пожалуйста, помогите мне понять, что могло пойти не так. Спасибо.
rf = RandomForestClassifier(bootstrap=True, class_weight={1:0.80,0:0.20}, criterion='entropy',
max_depth=2, max_features=4,
min_impurity_decrease=0.01, min_impurity_split=None,
min_weight_fraction_leaf=0.0, n_estimators=10,
n_jobs=-1, oob_score=False, random_state=41, verbose=0,
warm_start=False)
rf.fit(X_train, y_train)
![Selected feature correlation with each other](https://i.stack.imgur.com/5SsSK.png)
![All feature correlation with target](https://i.stack.imgur.com/8WK2B.png)