Я построил классификатор gbm на R, используя библиотеку gbm.
gbm2<-gbm(deal_stage~.,data=train,train.fraction=1,
interaction.depth=4,shrinkage=.001,
n.trees=6000,bag.fraction=0.5,cv.folds=5,
distribution="bernoulli",verbose=T)
r2pmml(gbm2,"/gbm_test.pmml",compact=TRUE)
Затем на Python, когда я пытаюсь делать прогнозы из файла PMML, я получаю результаты, отличные от тех, что были у меня на R.
from pypmml import Model
model = Model.fromFile('gbm_test.pmml')
model.predict(observation)
В целом я получаю разную точность на поезде и на тестовом наборе для обеих моделей. Мой набор данных содержит целочисленные и строковые функции. И для некоторых полей отсутствуют значения, которые обычно должны обрабатываться классификатором.
Я был бы очень признателен за совет, чтобы увидеть, что мне следует изменить, чтобы мои прогнозы на Python совпадали с тем, что я наблюдаю на Р! Спасибо!