Трубопровод Kubeflow - Хранение (передача) TF.Dataset - PullRequest
0 голосов
/ 28 мая 2019

Я играю с конвейерами Kubeflow, чего я хочу добиться, так это одного шага (функция python), где я создаю Iterator (generator), из которого я хочу создать TF.Dataset

Разрешено, чтобы соединения между шагами Kubeflow имели только входы / выходы примитивного типа, поэтому я не могу передать Iterator или iterator-initialized-dataset на следующий шаг.

Это обзор трубопровода

+-------------+   +-------------------+   +------------------------------+
| Data Ingest +---> Create TF.Dataset +---> Consume Tf.Dataset in Model  |
+-------------+   +-------------------+   +------------------------------+

Поскольку я могу обойти только примитивные типы, есть ли возможность для хранения Инициализированного Итератором набора данных?

Данные хранятся в Google Storage, их размер достаточно велик, чтобы не помещаться в память, как кто-нибудь достигнет этого?

Я знаю, что это довольно широкий вопрос, но поскольку Kubeflow довольно новый, я нигде не могу найти никаких полезных ресурсов.

1 Ответ

0 голосов
/ 04 июня 2019

Есть какая-то конкретная причина, чтобы разделить «Создать TF.Dataset» и «Потребить Tf.Dataset» на два шага?Как насчет 1. объединить их в один шаг?2. поделиться набором данных через «запись набора данных в хранилище» / «чтение набора данных из хранилища»?

...