Трубопровод Tensorflow TFX: где подходящее место для разработки функций? - PullRequest
0 голосов
/ 04 февраля 2020

Предположим, что у нас есть необработанные данные в двух таблицах / файлах:

  • Первая таблица содержит, например, описание клиента - имя, идентификатор, пол, возраст и т. Д. c.

  • Второй файл содержит историю платежей для каждого клиента.

Эти таблицы имеют разную структуру.

Я хочу использовать данные из второй таблицы для генерации дополнительных функций.

Вопрос в том, где мне это сделать?

  1. Когда я выполняю извлечение данных (до генерации примера) - это означает, что мне нужно сгруппировать и объединить данные из двух таблиц в одну большую таблицу (матрицу), а затем передать их в конвейер.

или

Если я передам в конвейер только первую таблицу, а затем в компоненте tranformer (preprocessing_fn), я прочитаю данные из второй таблицы и выполню слияние и группировку.

В первом случае я генерирую избыточная большая таблица, во втором (если второй случай вообще возможен) я замедлю выполнение конвейера.

Знаете ли вы, как правильно использовать tfx?

Спасибо вы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...