Использует ли код тензорного потока, завернутый с помощью пользовательского API оценки, эффективное использование gpu в google cloud-ml engine или на локальном компьютере? - PullRequest
0 голосов
/ 05 июля 2018

Я тренирую нейронную сеть в google cloud ml-engine. Я построил сеть, используя высокоуровневые API-интерфейсы tenorflow, такие как tf.layers, tf.losses, tf.dataset. Код также упакован в пользовательский интерфейс API оценки. Работа выполняется долго. Сеть настолько огромна, что должна использовать большое количество графических процессоров, но на странице сведений о заданиях ml-engine, которую она показывает, она не использует главный процессор, а также графический процессор. Хотя некоторое количество памяти в master-процессорах и gpu уже используется. Я использовал "complex_model_s" в качестве главного процессора, "standard-gpu" в качестве рабочего и сервер параметров типа "standard". Он не выводит какой-либо новый журнал или контрольные точки, так как он начал обучение. Почему ml-движок не использует gpu и не выводит никаких новых файлов журнала и контрольных точек? Если я буду использовать локальный компьютер с NVIDIA GPU для обучения, будет ли он использовать GPU? Или в коде нужны какие-то изменения?

1 Ответ

0 голосов
/ 05 июля 2018

Стратегия распределения, поддерживаемая в настоящее время оценщиком train_and_evaluate, лучше всего подходит для разреженных моделей. Похоже, у вас очень глубокая модель.

Итак, чтобы максимизировать скорость обучения, попробуйте использовать одну машину (т.е. без рабочих). Чтобы минимизировать стоимость, используйте самый маленький компьютер, который соответствует размеру вашей сети.

Если вы хотите экспериментировать, попробуйте использовать работника с несколькими устройствами и добавить стратегию зеркального распространения (хотя это все еще очень ранний прототип)

https://www.tensorflow.org/versions/master/api_docs/python/tf/contrib/distribute

Наилучшим вариантом, если ваш вариант использования поддерживает его, для максимальной скорости и минимальной стоимости является использование TPU.

...