Я использую Tensorflow Data Validation для генерации статистики из данных и вывода схемы для ввода в TFX.
Я не нашел никакой возможности указать значения NaN, e. например, в пандах есть поле "na_values", где можно указать, какое значение будет считаться NaN при чтении данных.
Я просмотрел всю документацию по TFDV, но не нашел ее.
tfdv.generate_statistics_from_csv(
data_location,
column_names=None,
delimiter=',',
output_path=None,
stats_options=options.StatsOptions(),
pipeline_options=None
)
options.StatsOptions () - это опции для генерации статистики, такие как sample_count, sample_rate и т. Д ...
Для меня не имеет смысла читать данные, имеющие дело с отсутствующими значениями, сохранять данные как Csv или TFRecord и после импорта в TFDV генерировать статистику.