Функция dfs trans_primitives 'равные' делает ошибку всегда с 2 или более таблицами столбцов типа 'категория'
полный код ниже
import featuretools as ft
from sklearn.datasets import load_boston
import numpy as np
import pandas as pd
def load_data_boston():
boston = load_boston()
x = pd.DataFrame(boston.data)
x.columns = boston.feature_names
y = pd.DataFrame(boston.target)
y.columns = ['TARGET']
return x, y
def run():
x, y = load_data_boston()
# convert CHAS, RAD to categorical
x["CHAS"] = x["CHAS"].astype('category')
x["RAD"] = x["RAD"].astype('category')
# make es
es = ft.EntitySet(id='es')
es.entity_from_dataframe(entity_id='data', dataframe=x, make_index=True, index='_index_') # run dfs
result, _ = ft.dfs(entityset=es, max_depth=1, target_entity='data', trans_primitives=["equal"])
return result
if __name__ == "__main__":
run()
получает ошибку ниже
{TypeError} Категориалы можно сравнивать, только если «категории» совпадают. Категории имеют разную длину
результат должен быть
- таблица с новым столбцом, функция «равно» работала со столбцами «категории»
ИЛИ
таблица с новым столбцом, функция 'равно' игнорировать 'столбцы категории'
есть идеи?