Question

Предположим, что у нас есть необработанные данные в двух таблицах / файлах:

Первая таблица содержит, например, описание клиента - имя, идентификатор, пол, возраст и т. Д. c.
Второй файл содержит историю платежей для каждого клиента.

Эти таблицы имеют разную структуру.

Я хочу использовать данные из второй таблицы для генерации дополнительных функций.

Вопрос в том, где мне это сделать?

Когда я выполняю извлечение данных (до генерации примера) - это означает, что мне нужно сгруппировать и объединить данные из двух таблиц в одну большую таблицу (матрицу), а затем передать их в конвейер.

или

Если я передам в конвейер только первую таблицу, а затем в компоненте tranformer (preprocessing_fn), я прочитаю данные из второй таблицы и выполню слияние и группировку.

В первом случае я генерирую избыточная большая таблица, во втором (если второй случай вообще возможен) я замедлю выполнение конвейера.

Знаете ли вы, как правильно использовать tfx?

Спасибо вы.

Трубопровод Tensorflow TFX: где подходящее место для разработки функций?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Трубопровод Tensorflow TFX: где подходящее место для разработки функций?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы