Drift Comparator
используется для вида данных временного ряда для сравнения, например, вчерашних и сегодняшних данных.
В вашем случае, я думаю, вы должны использовать Skew Comparator
, так как он найдет разницу в распределении / перекосе между Training
и Serving
данными. Код для этой функции показан ниже:
serving_stats = tfdv.generate_statistics_from_tfrecord(data_location=serving_data_path)
tfdv.get_feature(schema, 'payment_type').skew_comparator.infinity_norm.threshold = 0.01
skew_anomalies = tfdv.validate_statistics(
statistics=train_stats, schema=schema, serving_statistics=serving_stats)
Возможно, вам придется поиграться с пороговым значением (упоминается как 0,01) для пометки анамолиев.