Я ищу эффективный способ использования конвейера Склеарна для выполнения следующих действий:
Следующие шаги:
- fillna с медианой функции для числовых значений
- fillna с режимом функции для категориальных значений
- one_hot_encoding (или панды получают пустышки) для категориальных значений
- Выбор функции ( удаление этих функций с низкой дисперсией )
- Выполнение LogisticRegressionClassification
Любая помощь будет принята.
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import VarianceThreshold
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import Imputer
Pipeline(memory=None,steps=[('imp_n', imputer()), ('imp_c', imputer()),('ohe', OneHotEncoder()), ('feat_sel', VarianceThreshold()),('LogReg', LogisticRegression())])