Как правильно использовать featuretools для данных одной таблицы? - PullRequest
0 голосов
/ 21 февраля 2020

Предположим, что у меня есть набор данных, состоящий из одной таблицы, например, вы можете рассмотреть набор данных titani c для kaggle.

Теперь, как правильно использовать инструменты объектов, чтобы извлечь из этого наибольшую выгоду? так как featuretools специально для реляционных данных.

теперь под «правильным», я имею в виду, я знаю, что при создании entityset параметр index будет просто индексом набора данных, но каким должен быть мой новый индекс при нормализации сущности? также можно ли использовать RFE вслепую для выбора функции?

1 Ответ

1 голос
/ 22 февраля 2020

Вы можете получить максимальную выгоду от Featuretools, нормализовав набор сущностей. Чем более нормализован набор сущностей, тем больше DFS может использовать реляционную структуру для создания лучших функций.

Целью процесса нормализации является устранение избыточных данных. Таким образом, новый индекс с дополнительными переменными должен помочь достичь этой цели. В этом руководстве более подробно рассматривается создание сущности из ненормализованной таблицы.

Я думаю, что для выбора функции можно разумно использовать RFE с целями, которые позволяют повысить точность и снизить точность. сложность модели.

...