Question

Я тренирую нейронную сеть в google cloud ml-engine. Я построил сеть, используя высокоуровневые API-интерфейсы tenorflow, такие как tf.layers, tf.losses, tf.dataset. Код также упакован в пользовательский интерфейс API оценки. Работа выполняется долго. Сеть настолько огромна, что должна использовать большое количество графических процессоров, но на странице сведений о заданиях ml-engine, которую она показывает, она не использует главный процессор, а также графический процессор. Хотя некоторое количество памяти в master-процессорах и gpu уже используется. Я использовал "complex_model_s" в качестве главного процессора, "standard-gpu" в качестве рабочего и сервер параметров типа "standard". Он не выводит какой-либо новый журнал или контрольные точки, так как он начал обучение. Почему ml-движок не использует gpu и не выводит никаких новых файлов журнала и контрольных точек? Если я буду использовать локальный компьютер с NVIDIA GPU для обучения, будет ли он использовать GPU? Или в коде нужны какие-то изменения?

Lak · Answer 1 · 05 июля 2018

Стратегия распределения, поддерживаемая в настоящее время оценщиком train_and_evaluate, лучше всего подходит для разреженных моделей. Похоже, у вас очень глубокая модель.

Итак, чтобы максимизировать скорость обучения, попробуйте использовать одну машину (т.е. без рабочих). Чтобы минимизировать стоимость, используйте самый маленький компьютер, который соответствует размеру вашей сети.

Если вы хотите экспериментировать, попробуйте использовать работника с несколькими устройствами и добавить стратегию зеркального распространения (хотя это все еще очень ранний прототип)

https://www.tensorflow.org/versions/master/api_docs/python/tf/contrib/distribute

Наилучшим вариантом, если ваш вариант использования поддерживает его, для максимальной скорости и минимальной стоимости является использование TPU.

Использует ли код тензорного потока, завернутый с помощью пользовательского API оценки, эффективное использование gpu в google cloud-ml engine или на локальном компьютере?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использует ли код тензорного потока, завернутый с помощью пользовательского API оценки, эффективное использование gpu в google cloud-ml engine или на локальном компьютере?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы