Я создал ноутбук для обучения / подбора моделей на Jupyter и использовал его на своем игровом ноутбуке в прошлом году, без особых проблем.
Поскольку теперь я увеличиваю набор обучающих данных в 10 раз, я хотел переместить ноутбук Jupyter на AWS Sagemaker, чтобы он мог обеспечить дополнительную мощность, и чтобы мне не пришлось оставлять свой ноутбук на столе открыть неиспользуемое, пока обучение не будет завершено.
Я создал экземпляр Sagemaker и открыл блокнот Jupyter. Используя код и исходные данные, которые работали в течение 3 часов на моем ноутбуке, я попытался запустить ячейки в ноутбуке, чтобы получить общее время, чтобы я мог выбрать правильный аппаратный сценарий для моих больших прогонов.
Каждый раз, когда я пытаюсь запустить ноутбук, он вылетает из браузера. Я пробовал Chrome и Firefox на обоих ноутбуках с Windows 10 и Ubuntu 16.04.
Я не могу понять, как сделать две вещи, которые, как мне кажется, могут помочь.
1) просмотрите журнал кода сервера ноутбука jupyter. Я создал сценарии создания / запуска жизненного цикла, а затем просматривал журналы, созданные с помощью Cloudwatch, и ничего там не касалось сбоев.
2) просмотреть журнал внутри браузера. Я открыл режим разработчика на обоих, но как только он выходит из строя с «Aw snap» и т. Д., Я больше не могу ничего делать в окне, поэтому я не вижу вывода.
Вот фрагмент кода, который пытается запустить. Я пробовал как с show_metric = True, так и False:
from datetime import datetime
start_time=datetime.now().strftime("%Y-%m-%d %H:%M")
tf.reset_default_graph()
# Build neural network
phr_net = tflearn.input_data(shape=[None, len(phr_train_x[0])])
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, len(phr_train_y[0]), activation='softmax')
phr_net = tflearn.regression(phr_net)
# Define model and setup tensorboard
phr_model = tflearn.DNN(phr_net, tensorboard_dir='phr_tflearn_logs')
# Start training (apply gradient descent algorithm)
phr_model.fit(phr_train_x, phr_train_y, n_epoch=EPOCH_RUN_LENGTH, batch_size=8, show_metric=True)
phr_model.save('model.phr_tflearn')
print("start: ", start_time, "end: ", datetime.now().strftime("%Y-%m-%d %H:%M"))
Я хороший гуглер, и не нашел ничего, чтобы помочь. Документация AWS просто отправляет меня по кругу. У кого-нибудь есть совет?