Я пытаюсь проверить прогнозируемую оценку следующих классификаторов:
- random forest
- k neighbors
- svm
- naïve bayes
Я не использую выбор функций или масштабирование функций (без предварительной обработки вообще).
I Я использую разделение "поезд-тест" следующим образом:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)
Я проверил несколько наборов данных (из sklearn
):
- load_iris
- load_breast_cancer
- load_wine
Во всех этих 3 случайный лес всегда давал совершенные прогноз (точность теста 1.0).
Я пытался создать случайные выборки для классификации:
make_classification(flip_y=0.3, weights = [0.65, 0.35], n_features=40, n_redundant=4, n_informative=36,n_classes=2,n_clusters_per_class=1, n_samples=50000)
и снова случайный лес дал идеальный прогноз на тестовом наборе (точность 1.0).
Все остальные классификаторы дали хорошую производительность на тестовом наборе (0,8-0,97), но не идеально (1,0) в качестве случайного леса.
- Чего мне не хватает?
- случайный лес действительно превосходит все остальные классификаторы в идеальном случае?