TFX предназначен для предварительной обработки данных - PullRequest
1 голос
/ 23 мая 2019

Я хотел бы получить некоторую информацию о том, как использовать TFX, если мой подход был правильным. Моя конечная цель состояла в том, чтобы сделать некоторые прогнозы для необработанного потока последовательных данных, которые требовали некоторой предварительной обработки.

Обычно у нас есть нестабильные задания, выполняющие базовый анализ, такой как управление окнами, группировка и вычислительная статистика. Однако предполагалось перенести эти конвейеры в пучок и заставить TFX использовать эти компоненты пучка для дальнейших вычислений.

Это оказалось довольно сложной задачей, поскольку компоненты TFX имеют строгий API и ожидают, что все промежуточные данные будут TFRecords.

Таким образом, мой вопрос заключается в том, стремится ли TFX обрабатывать всю логику предварительной обработки (группирование, управление окнами и т. Д.) Или это больше для инженерии данных?

1 Ответ

1 голос
/ 24 июня 2019

TFX предназначен для обработки всей логики предварительной обработки.Ваше требование может быть выполнено встроенными функциями Tensorflow Transform.Некоторые из них показаны ниже:

tft.bucketize, tft.compute_and_apply_vocabulary, tft.pca, tft.scale_to_z_score, etc..

Да, компоненты TFX (особенно TF Transform) ожидают, что все промежуточные данные будут иметь формат TF.Example.И есть простые способы преобразования нашего набора данных в этот формат.

Код для преобразования данных CSV в TF.Example показан ниже:

from tfx.utils.dsl_utils import csv_input
from tfx.components.example_gen.csv_example_gen.component import CsvExampleGen

examples = csv_input(os.path.join(base_dir, 'data/simple'))
example_gen = CsvExampleGen(input_base=examples)

Другой способ преобразования данных, который может бытьTF Transform:

converter = tft.coders.CsvCoder(ordered_columns, RAW_DATA_METADATA.schema)

Для получения дополнительной информации см. ссылки

https://www.tensorflow.org/tfx/guide/examplegen и

https://www.tensorflow.org/tfx/tutorials/transform/census#transform_the_data

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...