Исключение: Не удается запустить TensorBoard.в Google Cloud Datalab - PullRequest
0 голосов
/ 28 мая 2019

Я вижу, что процесс Tensorboard запущен.Файлы записываются в каталог моделей.Однако, неоднократно я получаю Исключение: Невозможно запустить Tensorboard.Я использую TF.estimator.

Я запускаю свой код в Google Cloud Datalab.Я пытался изменить каталог модели и перезапустить экземпляр Datalab много раз.Также попытался запустить убийство всех запущенных процессов Tensorboard.Пока ничего не получалось.Он работал раньше или один раз в каждые 10-15 попыток магическим образом.Что происходит?

Вот так я запускаю Tensorboard.

from google.datalab.ml import TensorBoard as tb
tb.start(model_dir)

Так настроен мой оценщик.

run_config = tf.estimator.RunConfig(
  save_checkpoints_steps=FLAGS.save_checkpoints_steps,
  tf_random_seed=FLAGS.tf_random_seed,
  model_dir=model_dir
)

estimator = tf.estimator.Estimator(model_fn=model_fn, 
config=run_config)

Ниже приведены файлы, записываемые в каталог модели tf.estimator.

eval 8 минут назад

контрольная точка 124 B 9 минут назад

events.out.tfevents.1559025239.78fe4cbf0fad 603 КБ 9 минут назад

graph.pbtxt 399 КБ 12 минут назад

model.ckpt-1.data-00000-of-00001 261 МБ 11 минут назад

model.ckpt-1.index 811 B 11 минут назад

model.ckpt-1.meta 170 КБ 11 минут назад

модель.ckpt-5.data-00000-of-00001 261 МБ 9 минут назад

model.ckpt-5.index 811 B 9 минут назад

model.ckpt-5.meta 170 кБ 9минут назад

Я получаю ошибку ниже.Это то же самое, и у меня нет никакой дополнительной информации, чтобы определить, что происходит не так.

Отслеживание исключений (последний вызов> последний) в () 2 #tensorboard --logdir ./logs/1/train --host localhost --port 8081 3 из google.datalab.ml importTensorBoard as tb ----> 4 tb.start (model_dir)

/ usr / local / envs / py3env / lib / python3.5 / site-packages / google / datalab / ml / _tensorboard.py вstart (logdir) 77 повторных попыток - = 1 78 ---> 79 повышений Исключение ('Не удается запустить TensorBoard.') 80 81 @ staticmethod

Исключение: невозможно запустить TensorBoard.

Когда я перечисляю процессы Tensorboard, работающие с использованием приведенного ниже кода, я получаю следующее.

x = tb.list() #Returns a dataframe
print(x)
      logdir   pid   port

0 ./model_no_reuse/2 6236 40269
1 ./model_no_reuse/2 6241 57895

Пожалуйста, помогите мне определить, что происходитнеправильно.

1 Ответ

0 голосов
/ 29 мая 2019

Я попытался увеличить конфигурацию виртуальной машины с 2 vCPU / 4,5 ГБ до 4 vCPU / 20 ГБ, и проблема решена. Похоже, что хотя процесс Tensorboard действительно запускается, для его открытия требуются определенные минимальные ресурсы. Изменит ответ, если приду к какому-либо другому выводу.

...