Я вижу, что процесс Tensorboard запущен.Файлы записываются в каталог моделей.Однако, неоднократно я получаю Исключение: Невозможно запустить Tensorboard.Я использую TF.estimator.
Я запускаю свой код в Google Cloud Datalab.Я пытался изменить каталог модели и перезапустить экземпляр Datalab много раз.Также попытался запустить убийство всех запущенных процессов Tensorboard.Пока ничего не получалось.Он работал раньше или один раз в каждые 10-15 попыток магическим образом.Что происходит?
Вот так я запускаю Tensorboard.
from google.datalab.ml import TensorBoard as tb
tb.start(model_dir)
Так настроен мой оценщик.
run_config = tf.estimator.RunConfig(
save_checkpoints_steps=FLAGS.save_checkpoints_steps,
tf_random_seed=FLAGS.tf_random_seed,
model_dir=model_dir
)
estimator = tf.estimator.Estimator(model_fn=model_fn,
config=run_config)
Ниже приведены файлы, записываемые в каталог модели tf.estimator.
eval 8 минут назад
контрольная точка 124 B 9 минут назад
events.out.tfevents.1559025239.78fe4cbf0fad 603 КБ 9 минут назад
graph.pbtxt 399 КБ 12 минут назад
model.ckpt-1.data-00000-of-00001 261 МБ 11 минут назад
model.ckpt-1.index 811 B 11 минут назад
model.ckpt-1.meta 170 КБ 11 минут назад
модель.ckpt-5.data-00000-of-00001 261 МБ 9 минут назад
model.ckpt-5.index 811 B 9 минут назад
model.ckpt-5.meta 170 кБ 9минут назад
Я получаю ошибку ниже.Это то же самое, и у меня нет никакой дополнительной информации, чтобы определить, что происходит не так.
Отслеживание исключений (последний вызов> последний) в () 2 #tensorboard --logdir ./logs/1/train --host localhost --port 8081 3 из google.datalab.ml importTensorBoard as tb ----> 4 tb.start (model_dir)
/ usr / local / envs / py3env / lib / python3.5 / site-packages / google / datalab / ml / _tensorboard.py вstart (logdir) 77 повторных попыток - = 1 78 ---> 79 повышений Исключение ('Не удается запустить TensorBoard.') 80 81 @ staticmethod
Исключение: невозможно запустить TensorBoard.
Когда я перечисляю процессы Tensorboard, работающие с использованием приведенного ниже кода, я получаю следующее.
x = tb.list() #Returns a dataframe
print(x)
logdir pid port
0 ./model_no_reuse/2 6236 40269
1 ./model_no_reuse/2 6241 57895
Пожалуйста, помогите мне определить, что происходитнеправильно.