Запрос, связанный со степенью ошибочной классификации в деревьях решений - PullRequest
0 голосов
/ 10 апреля 2019

Я работаю над моделью дерева решений. Набор данных связан с автомобилями. У меня 80% данных в тренировочном наборе и 20% в тестовом наборе. Сводка модели (основанная на данных обучения) показывает уровень ошибочной классификации около 0,02605, где, когда я запускаю модель на тренировочном наборе, равную 0,0289, разница между ними составляет около 0,003. Является ли разница приемлемой, что вызывает эту разницу? Я новичок в R / статистике. Пожалуйста, поделитесь своими отзывами.

1 Ответ

0 голосов
/ 10 апреля 2019

Допустимый уровень ошибочной классификации - это больше искусство, чем наука. Если ваши данные получены из одной совокупности, то, несомненно, между группами существует некоторое неизбежное совпадение, что делает линейную классификацию подверженной ошибкам. Это не значит, что это проблема. Например, если вы классифицируете платежи по кредитным картам как мошеннические или нет, и ваше обращение не слишком сурово в случае, когда вы классифицируете наблюдение на первое, тогда вам может быть выгодно быть на более безопасной стороне и в итоге с большим количеством ложных срабатываний, а не низким уровнем ошибочной классификации. Вы могли бы: 1. визуализировать свои данные, чтобы определить совпадение, или 2. вычислить N * .03, чтобы определить количество неправильно классифицированных случаев; если у вас есть понимание того, что вы классифицируете, вы можете оценить серьезность неправильной классификации таким образом.

...