Почему случайный лес всегда дает 1,0 балла прогноза? - PullRequest
0 голосов
/ 12 апреля 2020

Я пытаюсь проверить прогнозируемую оценку следующих классификаторов:

- random forest
- k neighbors
- svm
- naïve bayes

Я не использую выбор функций или масштабирование функций (без предварительной обработки вообще).

I Я использую разделение "поезд-тест" следующим образом:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

Я проверил несколько наборов данных (из sklearn):

- load_iris
- load_breast_cancer
- load_wine

Во всех этих 3 случайный лес всегда давал совершенные прогноз (точность теста 1.0).

Я пытался создать случайные выборки для классификации:

make_classification(flip_y=0.3, weights = [0.65, 0.35], n_features=40, n_redundant=4, n_informative=36,n_classes=2,n_clusters_per_class=1, n_samples=50000)

и снова случайный лес дал идеальный прогноз на тестовом наборе (точность 1.0).

Все остальные классификаторы дали хорошую производительность на тестовом наборе (0,8-0,97), но не идеально (1,0) в качестве случайного леса.

  • Чего мне не хватает?
  • случайный лес действительно превосходит все остальные классификаторы в идеальном случае?

1 Ответ

3 голосов
/ 12 апреля 2020

Что касается идеального показателя точности 1,0, мы должны помнить, что все эти 3 набора данных в настоящее время считаются фактически игрушечными, и то же самое, вероятно, справедливо для искусственных данных, генерируемых make_classification. Scikit-learn. 1002 *

При этом верно, что RF считается очень мощным алгоритмом классификации. Существует даже относительно недавняя (2014 г.) статья под названием Нужны ли сотни классификаторов для решения проблем классификации в реальном мире? , в которой сделан вывод (цитата из реферата, выделение в оригинале):

Мы оцениваем 179 классификаторов , возникающих из 17 семейств (дискриминантный анализ, байесовские нейронные сети, машины опорных векторов, деревья решений, классификаторы на основе правил, повышение, суммирование, стекирование, случайные леса и другие ансамбли, обобщенные линейные модели, ближайшие соседи, частичные наименьшие квадраты и регрессия главных компонент, логистика c и полиномиальная регрессия, сплайны множественной адаптивной регрессии и другие методы) [...] Мы используем 121 набор данных , представляющий всю базу данных UCI [...] Классификаторами, наиболее вероятными из которых являются лучи, являются версии случайного леса (RF)

Хотя эта статья была подвергнута некоторой критике, главным образом потому, что она не включала увеличенные деревья (но не только для этого, см. также Действительно ли случайные леса действительно лучшие классификаторы? ), правда в том, что в области "традиционной" классификации по меньшей мере до углубленного обучения, там уже было высказывание , когда вы сомневаетесь, попробуйте RF , который укрепил первый упомянутый выше документ.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...