Question

У меня 204 данных с 6 атрибутами.

Когда я создаю модель со всеми данными с помощью этого сценария, model = C5.0(dataset1[,-7], dataset1[,7]), результат не давайте мне ни одного узла, как на картинке ниже.

Но если я просто использую 100 данных с этим сценарием, model = C5.0(dataset1[1:100,-7], dataset1[1:100,7]), результат даст мне хорошее дерево решений, как на картинке ниже.

В чем проблема? Проблема в данных? Спасибо.

G5W · Answer 1 · 19 февраля 2020

Изучив отображение ваших деревьев, легко увидеть, что произошло. Вторая модель, использующая только 100 баллов, НЕ является лучшей моделью, чем первая. Когда вы дали C5.0 больше данных, он правильно определил, что более простая модель была лучше. Посмотри на результаты.

Первое дерево (со всеми 204 точками) предсказывает, что все является Ланкаром, с частотой ошибок 27% (55 ошибок из 204).

Какова частота ошибок для второго дерева?

Узел 2 прогнозирует Ланкара на 55 баллов с ошибками 25,5% (14 ошибок).
Узел 4 прогнозирует Ланкара на 25 баллов с 28,0 баллами % ошибок (7 ошибок).
Узел 6 прогнозирует Macet для 8 баллов с ошибками 50,0% (4 ошибки).
Узел 7 прогнозирует Macet для 12 баллов с ошибками 41,7% (5 ошибок).
Всего ошибок 30 из 100 или 30,0% - хуже, чем 27% ошибок в более простой модели. C5.0 просто определила, что лучшая доступная модель должна была предсказать, что все точки находятся в классе большинства (Lancar).

Почему у моего дерева решений нет узла? (C5.0)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему у моего дерева решений нет узла? (C5.0)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы