Проверка TF: удаление неожиданных категориальных значений из функции в тестовых данных - PullRequest
0 голосов
/ 16 октября 2019

Во всей доступной документации для TF-Data-Validation, о том, как вы справляетесь с аномалиями (здесь я конкретно имею в виду тип аномалии наличия новых, невидимых словарных / категориальных значений категориального признака в тестовом наборе данных, который являетсяотсутствует в той же функции в наборе данных Train), чтобы добавить дополнительные значения в домен или ослабить минимальную долю значений, которые приходят из этого обучающего домена, как показано ниже. Я ссылаюсь на код в этой записной книжке Colab здесь в подразделе «Исправление аномалий оценки в схеме».


# Relax the minimum fraction of values that must come from the domain for feature company.
company = tfdv.get_feature(schema, 'company')
company.distribution_constraints.min_domain_mass = 0.9

# Add new value to the domain of feature payment_type.
payment_type_domain = tfdv.get_domain(schema, 'payment_type')
payment_type_domain.value.append('Prcard')

# Validate eval stats after updating the schema 
updated_anomalies = tfdv.validate_statistics(eval_stats, schema)
tfdv.display_anomalies(updated_anomalies)

Но что, если мы вместо этого просто хотим отфильтровать эти новые категории дляудалить их (или передать обратно в набор обучающих данных), есть ли способ сделать это, используя синтаксис, подобный двум приведенным выше примерам?

...