Я анализирую набор данных с использованием случайного леса, пытаясь предсказать определенное категоризованное значение (High, Mid Low).Группы сбалансированы, а RF работает довольно хорошо:
OOB estimate of error rate: 14.39%
Confusion matrix:
High Low Mid class.error
High 104 3 1 0.03703704
Low 16 62 6 0.26190476
Mid 9 3 60 0.16666667
Когда я смотрю на важность, я вижу, что один из моих параметров ("Grade") в наборе данных имеет довольно большую MeanDecreaseGini (23.03) по сравнению сдругие.Затем я взглянул на график MDS и обнаружил, что кластеризация категорий High / Mid / Low в порядке.Что было действительно интересно, так это то, что, когда я окрашиваю точки в соответствии с параметром «Оценка», я вижу довольно резкую кластеризацию.
Теперь у меня проблемы с интерпретацией этих результатов.Это то, что вы ожидаете случиться только потому, что "Grade" имеет высокий MeanDecreaseGini, или это на самом деле особенность моего набора данных?Если так, как я могу определить параметры, ведущие к кластеризации?