Как использовать большие объемы данных в Kubeflow? - PullRequest
1 голос
/ 12 апреля 2019

У меня есть 1 ТБ изображений, хранящихся в GCS (данные разбиты на 3 класса). Я хочу обучить пользовательскую модель Tensor Flow этим данным в Kubeflow. В настоящее время у меня есть конвейерные компоненты для обучения и сохранения модели, но я не знаю, как правильно подать эти данные в классификатор.

Мне кажется, что скачивание этих данных из GCS (gsutil cp / что-то другое) каждый раз, когда я запускаю (возможно, с ошибкой), конвейер не является подходящим способом сделать это.

Как использовать большие объемы данных в конвейерах Kubeflow, не загружая их каждый раз? Как выразить доступ к этим данным с помощью Kubeflow DSL?

Ответы [ 2 ]

1 голос
/ 12 апреля 2019

Кроме того, если ваши данные равны в GCS, то TensorFlow поддерживает возможность доступа к данным в GCS (и записи в них). tf.data api позволяет настроить эффективный конвейер ввода данных.

0 голосов
/ 12 апреля 2019

Можно ли смонтировать том на хост-компьютере?

Если да, подключите том на хосте, а затем подключите этот каталог к ​​контейнерам как hostPath, чтобы образы уже были подключены к узлу, и при каждом запуске нового контейнера он может подключать том к контейнеру и запускать процесс, избегая передачи данных на каждом запуск контейнера.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...