Tensorflow TFDV не работает с определенными значениями NaN - PullRequest
0 голосов
/ 16 января 2019

Я использую Tensorflow Data Validation для генерации статистики из данных и вывода схемы для ввода в TFX.

Я не нашел никакой возможности указать значения NaN, e. например, в пандах есть поле "na_values", где можно указать, какое значение будет считаться NaN при чтении данных.

Я просмотрел всю документацию по TFDV, но не нашел ее.

tfdv.generate_statistics_from_csv(
    data_location,
    column_names=None,
    delimiter=',',
    output_path=None,
    stats_options=options.StatsOptions(),
    pipeline_options=None
)

options.StatsOptions () - это опции для генерации статистики, такие как sample_count, sample_rate и т. Д ...

Для меня не имеет смысла читать данные, имеющие дело с отсутствующими значениями, сохранять данные как Csv или TFRecord и после импорта в TFDV генерировать статистику.

1 Ответ

0 голосов
/ 15 марта 2019

В TFDV 0.13.0 вы можете использовать метод tfdv.generate_statistics_from_dataframe для генерации статистики из панд данных. Если ваши данные помещаются в оперативную память, вы можете использовать метод pandas.read_csv, чтобы прочитать файл CSV (указав na_values), а затем использовать вышеуказанный метод для генерации статистики.

...