SciKit-Learn CustomTransformer: TypeError: объект 'numpy.ndarray' не вызывается - PullRequest
1 голос
/ 09 октября 2019

Мне нужно создать собственный преобразователь для ввода в грейдер.

Грейдер передает список словарей в метод предиката илиgnast_proba моей оценки, а не в DataFrame. Это означает, что модель должна работать с обоими типами данных. По этой причине мне нужно предоставить пользовательский ColumnSelectTransformer, чтобы использовать вместо него собственный ColumnTransformer scikit-learn.

Это мой код для пользовательского преобразователя, который стремится отбрасывать нулевые значения в предоставленных столбцах.

simple_cols = ['BEDCERT', 'RESTOT', 'INHOSP', 'CCRC_FACIL', 'SFF', 'CHOW_LAST_12MOS', 'SPRINKLER_STATUS', 'EXP_TOTAL', 'ADJ_TOTAL']

class ColumnSelectTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, columns):
        self.columns = columns

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        if not isinstance(X, pd.DataFrame):
            X = pd.DataFrame(X)
        X.dropna(inplace=True)
        return X[self.columns].values()

simple_features = Pipeline([
    ('cst', ColumnSelectTransformer(simple_cols)),
])

Однако я не могу пройти следующие проверки утверждений

assert data['RESTOT'].isnull().sum() > 0
assert not np.isnan(simple_features.fit_transform(data)).any()

Я генерирую ошибку типа

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-44-922f08231b1f> in <module>()
      1 assert not data['RESTOT'].isnull().sum() > 0
----> 2 assert not np.isnan(simple_features.fit_transform(data)).any()

/opt/conda/lib/python3.7/site-packages/sklearn/pipeline.py in fit_transform(self, X, y, **fit_params)
    391                 return Xt
    392             if hasattr(last_step, 'fit_transform'):
--> 393                 return last_step.fit_transform(Xt, y, **fit_params)
    394             else:
    395                 return last_step.fit(Xt, y, **fit_params).transform(Xt)

/opt/conda/lib/python3.7/site-packages/sklearn/base.py in fit_transform(self, X, y, **fit_params)
    551         if y is None:
    552             # fit method of arity 1 (unsupervised transformation)
--> 553             return self.fit(X, **fit_params).transform(X)
    554         else:
    555             # fit method of arity 2 (supervised transformation)

<ipython-input-42-e20ea4310864> in transform(self, X)
     12             X = pd.DataFrame(X)
     13         X.dropna(inplace=True)
---> 14         return X[self.columns].values()
     15 
     16 simple_features = Pipeline([

TypeError: 'numpy.ndarray' object is not callable

Здесь приведены фактические данные, если кому-то нужен доступ.

%%bash
mkdir data
wget http://dataincubator-wqu.s3.amazonaws.com/mldata/providers-train.csv -nc -P ./ml-data
wget http://dataincubator-wqu.s3.amazonaws.com/mldata/providers-metadata.csv -nc -P ./ml-data

data = pd.read_csv('./ml-data/providers-train.csv', encoding='latin1')

1 Ответ

2 голосов
/ 09 октября 2019

Как указывает журнал, ошибка в X[self.columns].values(). values - это пустой массив, поэтому вы не можете вызывать его как метод (поставьте круглые скобки после него). Вы должны попробовать X[self.columns].values.

...