Ошибка записи классификатора XGBoost в pmml с помощью sklearn2pmml - PullRequest
0 голосов
/ 21 февраля 2020

Я хочу сохранить свою модель XGBoost как pmml, используя sklearn2pmml. Я использую Python V3.7.3 со Sklearn 0.20.3 и sklearn2pmml V0.53.0. Мои данные в основном двоичные, всего с 3 столбцами непрерывных данных, я запускаю свой блокнот в Databricks и преобразую свой Spark-фрейм в pandas. Фрагмент кода ниже

import xgboost as xgb

from sklearn_pandas import DataFrameMapper
from sklearn.compose import ColumnTransformer

from sklearn2pmml import sklearn2pmml
from sklearn2pmml.pipeline import PMMLPipeline
from sklearn2pmml.decoration import ContinuousDomain
from sklearn.preprocessing import StandardScaler

X = pdf[continuous_features + numericCols]
y = pdf["Label"]


mapper = DataFrameMapper(
  [([cont_column], [ContinuousDomain(), StandardScaler()]) for cont_column in continuous_features] +
  [([c for c in numericCols], None)] # no transformation
)

clf = xgb.XGBClassifier(objective='multi:softprob',eval_metric='auc',num_class = 2,
                        n_jobs =6,max_delta_step=1, min_child_weight=14, gamma=1.5, subsample = 0.8,
                        colsample_bytree = 0.5, max_depth=10, learning_rate = 0.1)


pipeline = PMMLPipeline([
  ("mapper", mapper),
  ("estimator", clf)
])

pipeline.fit(X,y.values.reshape(-1,))

sklearn2pmml(pipeline, "xgb_V1.pmml", with_repr = True)

Конвейер соответствует данным, генерирует оценку и прогноз с помощью pipe.score (X, y) и pipe.predict (X), но когда я пытаюсь записать это pmml, я получаю следующую ошибку:

Standard output is empty
Standard error:
Feb 21, 2020 1:53:30 PM org.jpmml.sklearn.Main run
INFO: Parsing PKL..
Feb 21, 2020 1:53:30 PM org.jpmml.sklearn.Main run
INFO: Parsed PKL in 47 ms.
Feb 21, 2020 1:53:30 PM org.jpmml.sklearn.Main run
INFO: Converting..
Feb 21, 2020 1:53:30 PM sklearn2pmml.pipeline.PMMLPipeline initTargetFields
WARNING: Attribute 'sklearn2pmml.pipeline.PMMLPipeline.target_fields' is not set. Assuming y as the name of the target field
Feb 21, 2020 1:53:30 PM org.jpmml.sklearn.Main run
SEVERE: Failed to convert
java.lang.IllegalArgumentException: Attribute 'xgboost.sklearn.XGBClassifier._le' has an unsupported value (Python class xgboost.compat.XGBoostLabelEncoder)
	at org.jpmml.sklearn.CastFunction.apply(CastFunction.java:45)
	at org.jpmml.sklearn.PyClassDict.get(PyClassDict.java:82)
	at sklearn.LabelEncoderClassifier.getLabelEncoder(LabelEncoderClassifier.java:40)
	at sklearn.LabelEncoderClassifier.getClasses(LabelEncoderClassifier.java:34)
	at sklearn.ClassifierUtil.getClasses(ClassifierUtil.java:32)
	at sklearn2pmml.pipeline.PMMLPipeline.encodePMML(PMMLPipeline.java:133)
	at org.jpmml.sklearn.Main.run(Main.java:145)
	at org.jpmml.sklearn.Main.main(Main.java:94)
Caused by: java.lang.ClassCastException: Cannot cast net.razorvine.pickle.objects.ClassDict to sklearn.preprocessing.LabelEncoder
	at java.lang.Class.cast(Class.java:3369)
	at org.jpmml.sklearn.CastFunction.apply(CastFunction.java:43)
	... 7 more

Exception in thread "main" java.lang.IllegalArgumentException: Attribute 'xgboost.sklearn.XGBClassifier._le' has an unsupported value (Python class xgboost.compat.XGBoostLabelEncoder)
	at org.jpmml.sklearn.CastFunction.apply(CastFunction.java:45)
	at org.jpmml.sklearn.PyClassDict.get(PyClassDict.java:82)
	at sklearn.LabelEncoderClassifier.getLabelEncoder(LabelEncoderClassifier.java:40)
	at sklearn.LabelEncoderClassifier.getClasses(LabelEncoderClassifier.java:34)
	at sklearn.ClassifierUtil.getClasses(ClassifierUtil.java:32)
	at sklearn2pmml.pipeline.PMMLPipeline.encodePMML(PMMLPipeline.java:133)
	at org.jpmml.sklearn.Main.run(Main.java:145)
	at org.jpmml.sklearn.Main.main(Main.java:94)
Caused by: java.lang.ClassCastException: Cannot cast net.razorvine.pickle.objects.ClassDict to sklearn.preprocessing.LabelEncoder
	at java.lang.Class.cast(Class.java:3369)
	at org.jpmml.sklearn.CastFunction.apply(CastFunction.java:43)

Я думал, что это может быть проблема несовместимости версий между Sklearn и sklearn2pmml согласно этому посту https://github.com/jpmml/sklearn2pmml/issues/197, но я думаю, что версии, которые я установил должно быть хорошо. Любые идеи о том, что происходит с этим? Заранее спасибо

1 Ответ

0 голосов
/ 21 февраля 2020

Вероятно, это проблема версии пакета XGBoost. Пакет SkLearn2PMML ожидает, что кодировщик меток (атрибут XGBClassifier._le) будет «нормальным» классом кодировщика меток Scikit-Learn (sklearn.preprocessing.(label|_label).LabelEncoder), но в вашем случае это нечто иное (xgboost.compat.XGBoostLabelEncoder).

В какой версии пакета XGBOost была представлена ​​эта xgboost.compat.XGBoostLabelEncoder? Это либо очень старая, либо очень новая вещь.

В любом случае, пожалуйста, откройте запрос функции в проекте JPMML-SkLearn здесь , чтобы решить эту проблему.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...