featuretools dfs равно, категоричный тип err - PullRequest
0 голосов
/ 23 апреля 2020

Функция dfs trans_primitives 'равные' делает ошибку всегда с 2 или более таблицами столбцов типа 'категория'

полный код ниже

import featuretools as ft
from sklearn.datasets import load_boston
import numpy as np
import pandas as pd


def load_data_boston():
    boston = load_boston()
    x = pd.DataFrame(boston.data)
    x.columns = boston.feature_names
    y = pd.DataFrame(boston.target)
    y.columns = ['TARGET']
    return x, y


def run():
    x, y = load_data_boston()
    # convert CHAS, RAD to categorical
    x["CHAS"] = x["CHAS"].astype('category')
    x["RAD"] = x["RAD"].astype('category')
    # make es
    es = ft.EntitySet(id='es')
    es.entity_from_dataframe(entity_id='data', dataframe=x, make_index=True, index='_index_')    # run dfs
    result, _ = ft.dfs(entityset=es, max_depth=1, target_entity='data', trans_primitives=["equal"])
    return result


if __name__ == "__main__":
    run()

получает ошибку ниже

{TypeError} Категориалы можно сравнивать, только если «категории» совпадают. Категории имеют разную длину

результат должен быть

  1. таблица с новым столбцом, функция «равно» работала со столбцами «категории»

ИЛИ

таблица с новым столбцом, функция 'равно' игнорировать 'столбцы категории'

есть идеи?

...