Как прочитать несколько CSV-файлов в расширении Tensorflow? - PullRequest
0 голосов
/ 23 мая 2019

Я немного читал о Tensorflow Extension (TFX) и хочу попробовать его использовать.

Я заметил в компоненте ExampleGen, что ExampleGen может работать с csvs, BigQuery и существующими файлами TFRecord. Это немного ограничено, но хорошо.

Мне было интересно, каким будет правильный подход для загрузки данных в ExampleGen из нескольких CSV-файлов? Скажем, у меня был один CSV для моих пользователей и один CSV для продаж, и я хочу загрузить их обоих в свой конвейер, где разработка функций на этапе преобразования объединит оба CSV в некотором значимом смысле. Существующие примеры для ExampleGen в документации можно найти здесь:

https://www.tensorflow.org/tfx/guide/examplegen

и предлагаемый код выглядит следующим образом:

from tfx.utils.dsl_utils import csv_input
from tfx.components.example_gen.csv_example_gen.component import CsvExampleGen

examples = csv_input(os.path.join(base_dir, 'data/simple'))
example_gen = CsvExampleGen(input_base=examples) 

Каков наилучший способ загрузки нескольких csvs, чтобы выдавать записи tf.Example, которые, как ожидается, будут возвращены ExampleGen? Или лучше было бы как-то объединить несколько CSV в один CSV?

Полагаю, очевидный ответ - построить следующее для каждого CSV:

examples = csv_input(os.path.join(base_dir, 'data/simple'))
example_gen = CsvExampleGen(input_base=examples) 

но в конце у меня будет список объектов CsvExampleGen. Я читал, что Transform ожидает "tf.Examples от компонента ExampleGen", что делает его звучащим так, как будто он может обрабатывать множественные tf.Examples, но я не знаю, нужно ли их каким-либо образом объединять или объединять перед передачей в Transform.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...