Интерпретация графика MDS после RandomForest в R - PullRequest
0 голосов
/ 27 марта 2019

Я анализирую набор данных с использованием случайного леса, пытаясь предсказать определенное категоризованное значение (High, Mid Low).Группы сбалансированы, а RF работает довольно хорошо:

    OOB estimate of  error rate: 14.39%
 Confusion matrix:
     High Low Mid class.error
High  104   3   1  0.03703704
Low    16  62   6  0.26190476
Mid     9   3  60  0.16666667

Когда я смотрю на важность, я вижу, что один из моих параметров ("Grade") в наборе данных имеет довольно большую MeanDecreaseGini (23.03) по сравнению сдругие.Затем я взглянул на график MDS и обнаружил, что кластеризация категорий High / Mid / Low в порядке.Что было действительно интересно, так это то, что, когда я окрашиваю точки в соответствии с параметром «Оценка», я вижу довольно резкую кластеризацию.

MDS plot of random forest proximities

Теперь у меня проблемы с интерпретацией этих результатов.Это то, что вы ожидаете случиться только потому, что "Grade" имеет высокий MeanDecreaseGini, или это на самом деле особенность моего набора данных?Если так, как я могу определить параметры, ведущие к кластеризации?

...