Как включить дрейф числовой функции? - PullRequest
1 голос
/ 19 июня 2019

Я хочу включить дрейф числовой функции без настройки домена.Пример: я оцениваю клиентов по возрасту, и в моем тренировочном наборе у меня было равномерное распределение переменной.Теперь, по моим данным обслуживания, всем клиентам за 50 (домен не поймает такую ​​смену).Есть ли возможность пометить такое поведение, которое потребовало бы переобучения в tfdv?

Я попытался дать tfdv два распределения N (0,1) и N (10,1), но не обнаружил аномалий.

РЕДАКТИРОВАТЬ: Drift работает только для категориальных функций.

1 Ответ

1 голос
/ 20 июня 2019

Drift Comparator используется для вида данных временного ряда для сравнения, например, вчерашних и сегодняшних данных.

В вашем случае, я думаю, вы должны использовать Skew Comparator, так как он найдет разницу в распределении / перекосе между Training и Serving данными. Код для этой функции показан ниже:

serving_stats = tfdv.generate_statistics_from_tfrecord(data_location=serving_data_path)

tfdv.get_feature(schema, 'payment_type').skew_comparator.infinity_norm.threshold = 0.01

skew_anomalies = tfdv.validate_statistics(
        statistics=train_stats, schema=schema, serving_statistics=serving_stats)

Возможно, вам придется поиграться с пороговым значением (упоминается как 0,01) для пометки анамолиев.

...