Почему у моего дерева решений нет узла? (C5.0) - PullRequest
0 голосов
/ 19 февраля 2020

У меня 204 данных с 6 атрибутами.

enter image description here

Когда я создаю модель со всеми данными с помощью этого сценария, model = C5.0(dataset1[,-7], dataset1[,7]), результат не давайте мне ни одного узла, как на картинке ниже.

enter image description here

Но если я просто использую 100 данных с этим сценарием, model = C5.0(dataset1[1:100,-7], dataset1[1:100,7]), результат даст мне хорошее дерево решений, как на картинке ниже.

enter image description here

В чем проблема? Проблема в данных? Спасибо.

1 Ответ

0 голосов
/ 19 февраля 2020

Изучив отображение ваших деревьев, легко увидеть, что произошло. Вторая модель, использующая только 100 баллов, НЕ является лучшей моделью, чем первая. Когда вы дали C5.0 больше данных, он правильно определил, что более простая модель была лучше. Посмотри на результаты.

Первое дерево (со всеми 204 точками) предсказывает, что все является Ланкаром, с частотой ошибок 27% (55 ошибок из 204).

Какова частота ошибок для второго дерева?

Узел 2 прогнозирует Ланкара на 55 баллов с ошибками 25,5% (14 ошибок).
Узел 4 прогнозирует Ланкара на 25 баллов с 28,0 баллами % ошибок (7 ошибок).
Узел 6 прогнозирует Macet для 8 баллов с ошибками 50,0% (4 ошибки).
Узел 7 прогнозирует Macet для 12 баллов с ошибками 41,7% (5 ошибок).
Всего ошибок 30 из 100 или 30,0% - хуже, чем 27% ошибок в более простой модели. C5.0 просто определила, что лучшая доступная модель должна была предсказать, что все точки находятся в классе большинства (Lancar).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...