Странные результаты использования атрибутов в дереве решений с кареткой - PullRequest
1 голос
/ 29 мая 2019

Я хочу знать, какие переменные важны в моей модели дерева решений.

Я получил модель с помощью train () пакета caret.Но результаты использования атрибутов странные для переменных фатора.

Ниже приведен мой код.

set.seed(123)
ctrl <- trainControl(method = "cv", classProbs = TRUE, summaryFunction=twoClassSummary)
mDt <- train(metS ~ ., data= df_train, method = "C5.0", metric="ROC", trControl = ctrl); mDt

Я получил использование атрибута с помощью C5imp ().(Результаты с использованием сводки (mDt) были одинаковыми.)

C5imp(mDt$finalModel)

Результаты использования атрибута следующие:

  • возраст 100,00
  • ИМТ 100,00
  • рост 100,00
  • вес 100,00
  • работа 7 98,90
  • piHeatScore 83,81
  • dailyAlcoholIntake_final 82,96
  • pi4.L 67,14
  • familyIncome ^ 9
  • pi17.C 60,33
  • pi6.C 59,72
  • pi13.L 56,53
  • ...

Странно то, что одна факторная переменная (например, 'pi4': Ord.factor w / 5 уровней "1" <"2" <"3" <"4" <"5") имеет несколькоатрибут использования.(например, «pi4.L», «pi4.Q», «pi4.C», «pi ^ 4») </p>

Это похоже на неупорядоченные факторы.Например, «брак» - это коэффициент с 6 уровнями («1», «2», «3», «4», «5», «6»), а использование атрибутов показано для «брака2»,'riage3 ',' брак4 ',' брак5 'и' брак6 '.

Однако результаты должны быть примерно такими:

(Приведенные ниже результаты были получены с помощью C5.0 () с теми же данными. Использование одного атрибута показано для одной факторной переменной.)

mTemp <- C5.0(df_train[,-1], df_train$metS) 
C5imp(mTemp)
  • ИМТ 100,00
  • возраст 32,37
  • pi6 27,28
  • pi13 16,92
  • pi9 15,76
  • job 9.07
  • pi14 2.88
  • ...

Я думаю, что это вызвано различием при применении метода C5.0 к C5.0 ()и train ().

Я хочу использовать train () пакета caret, потому что он автоматически применяет перекрестную проверку и т. д.

Пожалуйста, помогите мне.

...