У меня странная ситуация с бинарной классификацией scikit-learn:
- , когда я выбираю подмножество данных из обучающего набора, в котором отсутствуют значения в столбце W, и обучаю на нем модель A,
- чем выбрать подмножество B, в котором присутствуют значения столбца W, и обучить модели B на нем,
- и, наконец, использовать прогнозируемые вероятности из обеих моделей для RO C
- . Я значительно лучше AU C по сравнению с тем же конвейером, обученным для полного набора данных с некоторыми записями, имеющими значения в столбце W.
Я пробовал различные методы ContioisDomain () в DataFrameMapper с Imputer (), с фиктивными значениями для нулевых значений и с фиктивными значениями для нулей в наборе обучающих данных - все они дают значительно менее хорошие результаты, чем при использовании предсказанных вероятностей из 2 моделей А и В., как указано выше.
У кого-нибудь из вас была такая ситуация ?
Как создать конвейер scikit-learn, который может выбирать модель A или модель B в зависимости от того, v alue в столбце W присутствует или отсутствует?
Я использую оболочку JPMML вокруг конвейера scikit-learn с помощью sklearn2pmml.pipeline.PMMLPipeline ().
Пока я нашел это обсуждение https://github.com/jpmml/sklearn2pmml/issues/110, но не знаю, был ли реализован ModelChoice.