Предположим, что у нас есть необработанные данные в двух таблицах / файлах:
Первая таблица содержит, например, описание клиента - имя, идентификатор, пол, возраст и т. Д. c.
Второй файл содержит историю платежей для каждого клиента.
Эти таблицы имеют разную структуру.
Я хочу использовать данные из второй таблицы для генерации дополнительных функций.
Вопрос в том, где мне это сделать?
- Когда я выполняю извлечение данных (до генерации примера) - это означает, что мне нужно сгруппировать и объединить данные из двух таблиц в одну большую таблицу (матрицу), а затем передать их в конвейер.
или
Если я передам в конвейер только первую таблицу, а затем в компоненте tranformer (preprocessing_fn), я прочитаю данные из второй таблицы и выполню слияние и группировку.
В первом случае я генерирую избыточная большая таблица, во втором (если второй случай вообще возможен) я замедлю выполнение конвейера.
Знаете ли вы, как правильно использовать tfx?
Спасибо вы.