Категориальные или порядковые признаки лучше всего хранить в виде целочисленных значений.Это потому, что более эффективно представлять данные как целое число, а не как строку.Например, [1, 4, 3, 1] требует намного меньше памяти, чем ["Январь", "Апрель", "Март", "Январь"].Вы можете определить тип данных функции, используя список определений функций, который возвращается ft.dfs
import featuretools as ft
es = ft.demo.load_mock_customer(return_entityset=True)
feature_matrix, feature_defs = ft.dfs(entityset=es,
target_entity="customers",
agg_primitives=[],
trans_primitives=["month"])
feature_defs
- это список определений функций
[<Feature: zip_code>, <Feature: MONTH(join_date)>]
мы можемполучить тип переменной, подобный этому
feature_defs[1].variable_type
, который возвращает
featuretools.variable_types.variable.Ordinal
Для кодирования дискретных функций в числовые функции для машинного обучения смотрите документацию для ft.encode_features
.