Как сделать и восстановить снимки модели обучения на другой виртуальной машине в Google Colab? - PullRequest
0 голосов
/ 09 октября 2018

Существует ограничение в 12 часов времени для обучения моделей DL на GPU, согласно Google Colab.У других людей были подобные вопросы в прошлом, но не было четкого ответа о том, как сохранять и загружать модели на полпути после обучения, когда превышены 12-часовые ограничения, включая сохранение количества прошедших эпох.Завершено / сохранение других параметров.Существует ли автоматический скрипт для сохранения соответствующих параметров и возобновления операций на другой виртуальной машине?Я полный нуб;четкие ответы будут высоко оценены.

Ответы [ 3 ]

0 голосов
/ 09 октября 2018

Насколько я знаю, нет никакого способа автоматически переподключиться к другой виртуальной машине, когда вы достигнете предела 12 часов.Так что в любом случае вам придется вручную переподключаться, когда время истечет.

Как указывает Боб Смит, вы можете подключить Google Drive в виртуальной машине Colab, чтобы вы могли сохранять и загружать данные оттуда.В частности, вы можете периодически сохранять контрольные точки модели, чтобы загружать самые последние из них при каждом подключении к новой виртуальной машине Colab.

  1. Монтирование диска в виртуальную машину Colab:

    from google.colab import drive
    drive.mount('/content/gdrive')
    
  2. Создайте saver на своем графике:

    saver = tf.train.Saver()
    
  3. Периодически (например, для каждой эпохи) сохраняйте контрольную точку в Drive:

    saver.save(session, CHECKPOINT_PATH)
    

Когда вы подключаетесь к новой виртуальной машине Colab (из-за тайм-аута), снова подключите Drive к вашей виртуальной машине и восстановите самую последнюю контрольную точку до фазы обучения:

saver.restore(session, CHECKPOINT_PATH)
...
# Start training with the restored model.

Ознакомьтесь с документацией , чтобы узнать больше о tf.train.Saver.

0 голосов
/ 10 октября 2018

Из colab вы можете получить доступ к github, что позволяет периодически сохранять контрольные точки модели в github.Когда сеанс закончен, вы можете начать другой сеанс и загрузить контрольную точку обратно из репозитория github.

0 голосов
/ 09 октября 2018

Установите диск, сохраните и загрузите оттуда постоянные данные.

from google.colab import drive
drive.mount('/content/gdrive')

https://colab.research.google.com/notebooks/io.ipynb#scrollTo=RWSJpsyKqHjH

...