Featuretools категориальная обработка - PullRequest
0 голосов
/ 23 сентября 2018

Featuretools предлагает интегрированные функциональные возможности для обработки категориальных переменных

variable_types={"product_id": ft.variable_types.Categorical} https://docs.featuretools.com/loading_data/using_entitysets.html

Однако должны ли они быть strings или pandas.Category типов для оптимальной совместимости с Featuretools?

edit

Кроме того, необходимо ли вручную указывать все столбцы, как в https://github.com/Featuretools/predict-appointment-noshow/blob/master/Tutorial.ipynb, или они будут автоматически выводиться из подходящих типов данных pandas

import featuretools.variable_types as vtypes
variable_types = {'gender': vtypes.Categorical,
                  'patient_id': vtypes.Categorical,
                  'age': vtypes.Ordinal,
                  'scholarship': vtypes.Boolean,
                  'hypertension': vtypes.Boolean,
                  'diabetes': vtypes.Boolean,
                  'alcoholism': vtypes.Boolean,
                  'handicap': vtypes.Boolean,
                  'no_show': vtypes.Boolean,
                  'sms_received': vtypes.Boolean}

1 Ответ

0 голосов
/ 23 сентября 2018

Вы должны использовать категорию панд dtype при загрузке ваших данных в Featuretools.Это значительно сэкономит на использовании памяти по сравнению со строками.

Вам не нужно вручную указывать каждый тип переменной при загрузке ваших данных.Featuretools попытается вывести его из dtype Pandas, если он не предоставлен.

...