Featuretools: Использование функций, рассчитанных в данных поезда на новых данных - PullRequest
0 голосов
/ 17 марта 2020

Мне было интересно, как использовать функции, разработанные во время поезда, для предсказания новых данных. Рассматриваемый набор данных - это набор данных отмены встречи из Прогнозировать встречу не показывать, Github

Рассмотрим функцию locations.PERCENT_TRUE(no_show): процент отмен прошлых встреч в данном месте. Допустим, у меня есть новые входящие тестовые данные в тех же местах, что и в данных поезда, для которых я уже знаю эти значения. Как я могу использовать эту функцию в тестовых данных? Конечно, я могу объединить данные испытаний с данными поезда и пересчитать все функции, используя featuretools.dfs(), но это отнимает много времени.

Есть ли более простой способ?

1 Ответ

0 голосов
/ 18 марта 2020

Да, объединение данных испытаний с данными поезда не требуется. Вы можете повторно использовать определения функций для входящих тестовых данных. Например, когда вы используете DFS для данных поезда, определения характеристик, которые включают locations.PERCENT_TRUE(no_show), возвращаются вместе с матрицей характеристик.

fm, features = ft.dfs(
    entityset=es_train,
    target_entity='appointments',
    ...
)

В тестовых данных вы можете создать набор сущностей и использовать его повторно. определения для расчета функций.

fm = ft.calculate_feature_matrix(
    features=features,
    entityset=es_test,
    ...
)

Дайте мне знать, если это поможет.

...