Я тренирую модель дерева решений на основе данных о заболеваниях сердца из Kaggle .
Поскольку я также строю другие модели, используя 10-кратное резюме, я пытаюсь использовать каретку пакет с методом rpart для построения дерева. Тем не менее, результат сюжета странный, так как «талий» должен быть фактором. Почему он показывает "талий нормальный <0,5"? Означает ли это, что если "thalium" == normal ", то выбрать левый маршрут" yes ", в противном случае правый маршрут" no "? </p>
Большое спасибо!
Исправления: Я извиняюсь за то, что не предоставил достаточного количества справочной информации, которая, казалось, вызывала некоторую путаницу. "Талиум" - это переменная, которая представляет метод, используемый для обнаружения коронарного стеноза (он же сужение). три уровня (нормальный, фиксированный дефект, обратимый дефект).
Кроме того, я хотел бы сделать график более читабельным, например вместо «талиум-нормальный» <0.5 ", это должно быть что-то вроде" thalium = normal ". Я мог бы достичь этой цели, используя rpart напрямую (см. Ниже). </p>
Тем не менее, вы, вероятно, заметили, что дерево отличается, несмотря на то, что я использовал рекомендованное значение cp с частотой каретки CV 10 (см. Код ниже).
Я понимаю, что эти два пакета м может привести к некоторым различиям. В идеале я мог бы использовать каретку с методом rpart для построения дерева так, чтобы оно совпало с другими моделями, встроенными в каретку. Кто-нибудь знает, как я мог бы сделать метку графика для древовидной модели, построенной с помощью caret rpart, легче для понимания?