У меня есть 1 ТБ изображений, хранящихся в GCS (данные разбиты на 3 класса). Я хочу обучить пользовательскую модель Tensor Flow этим данным в Kubeflow.
В настоящее время у меня есть конвейерные компоненты для обучения и сохранения модели, но я не знаю, как правильно подать эти данные в классификатор.
Мне кажется, что скачивание этих данных из GCS (gsutil cp / что-то другое) каждый раз, когда я запускаю (возможно, с ошибкой), конвейер не является подходящим способом сделать это.
Как использовать большие объемы данных в конвейерах Kubeflow, не загружая их каждый раз? Как выразить доступ к этим данным с помощью Kubeflow DSL?