Я хочу знать, какие переменные важны в моей модели дерева решений.
Я получил модель с помощью train () пакета caret.Но результаты использования атрибутов странные для переменных фатора.
Ниже приведен мой код.
set.seed(123)
ctrl <- trainControl(method = "cv", classProbs = TRUE, summaryFunction=twoClassSummary)
mDt <- train(metS ~ ., data= df_train, method = "C5.0", metric="ROC", trControl = ctrl); mDt
Я получил использование атрибута с помощью C5imp ().(Результаты с использованием сводки (mDt) были одинаковыми.)
C5imp(mDt$finalModel)
Результаты использования атрибута следующие:
- возраст 100,00
- ИМТ 100,00
- рост 100,00
- вес 100,00
- работа 7 98,90
- piHeatScore 83,81
- dailyAlcoholIntake_final 82,96
- pi4.L 67,14
- familyIncome ^ 9
- pi17.C 60,33
- pi6.C 59,72
- pi13.L 56,53
- ...
Странно то, что одна факторная переменная (например, 'pi4': Ord.factor w / 5 уровней "1" <"2" <"3" <"4" <"5") имеет несколькоатрибут использования.(например, «pi4.L», «pi4.Q», «pi4.C», «pi ^ 4») </p>
Это похоже на неупорядоченные факторы.Например, «брак» - это коэффициент с 6 уровнями («1», «2», «3», «4», «5», «6»), а использование атрибутов показано для «брака2»,'riage3 ',' брак4 ',' брак5 'и' брак6 '.
Однако результаты должны быть примерно такими:
(Приведенные ниже результаты были получены с помощью C5.0 () с теми же данными. Использование одного атрибута показано для одной факторной переменной.)
mTemp <- C5.0(df_train[,-1], df_train$metS)
C5imp(mTemp)
- ИМТ 100,00
- возраст 32,37
- pi6 27,28
- pi13 16,92
- pi9 15,76
- job 9.07
- pi14 2.88
- ...
Я думаю, что это вызвано различием при применении метода C5.0 к C5.0 ()и train ().
Я хочу использовать train () пакета caret, потому что он автоматически применяет перекрестную проверку и т. д.
Пожалуйста, помогите мне.