Question

Featuretools предлагает интегрированные функциональные возможности для обработки категориальных переменных

variable_types={"product_id": ft.variable_types.Categorical} https://docs.featuretools.com/loading_data/using_entitysets.html

Однако должны ли они быть strings или pandas.Category типов для оптимальной совместимости с Featuretools?

edit

Кроме того, необходимо ли вручную указывать все столбцы, как в https://github.com/Featuretools/predict-appointment-noshow/blob/master/Tutorial.ipynb, или они будут автоматически выводиться из подходящих типов данных pandas

import featuretools.variable_types as vtypes
variable_types = {'gender': vtypes.Categorical,
                  'patient_id': vtypes.Categorical,
                  'age': vtypes.Ordinal,
                  'scholarship': vtypes.Boolean,
                  'hypertension': vtypes.Boolean,
                  'diabetes': vtypes.Boolean,
                  'alcoholism': vtypes.Boolean,
                  'handicap': vtypes.Boolean,
                  'no_show': vtypes.Boolean,
                  'sms_received': vtypes.Boolean}

Max Kanter · Answer 1 · 23 сентября 2018

Вы должны использовать категорию панд dtype при загрузке ваших данных в Featuretools.Это значительно сэкономит на использовании памяти по сравнению со строками.

Вам не нужно вручную указывать каждый тип переменной при загрузке ваших данных.Featuretools попытается вывести его из dtype Pandas, если он не предоставлен.

Featuretools категориальная обработка

edit

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Featuretools категориальная обработка

edit

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы