Сбои браузеров Chrome / Firefox с AWS Sagemaker и Jupyter - как войти / отладить? - PullRequest
2 голосов
/ 11 марта 2019

Я создал ноутбук для обучения / подбора моделей на Jupyter и использовал его на своем игровом ноутбуке в прошлом году, без особых проблем.

Поскольку теперь я увеличиваю набор обучающих данных в 10 раз, я хотел переместить ноутбук Jupyter на AWS Sagemaker, чтобы он мог обеспечить дополнительную мощность, и чтобы мне не пришлось оставлять свой ноутбук на столе открыть неиспользуемое, пока обучение не будет завершено.

Я создал экземпляр Sagemaker и открыл блокнот Jupyter. Используя код и исходные данные, которые работали в течение 3 часов на моем ноутбуке, я попытался запустить ячейки в ноутбуке, чтобы получить общее время, чтобы я мог выбрать правильный аппаратный сценарий для моих больших прогонов.

Каждый раз, когда я пытаюсь запустить ноутбук, он вылетает из браузера. Я пробовал Chrome и Firefox на обоих ноутбуках с Windows 10 и Ubuntu 16.04.

Я не могу понять, как сделать две вещи, которые, как мне кажется, могут помочь.
1) просмотрите журнал кода сервера ноутбука jupyter. Я создал сценарии создания / запуска жизненного цикла, а затем просматривал журналы, созданные с помощью Cloudwatch, и ничего там не касалось сбоев. 2) просмотреть журнал внутри браузера. Я открыл режим разработчика на обоих, но как только он выходит из строя с «Aw snap» и т. Д., Я больше не могу ничего делать в окне, поэтому я не вижу вывода.

Вот фрагмент кода, который пытается запустить. Я пробовал как с show_metric = True, так и False:

from datetime import datetime
start_time=datetime.now().strftime("%Y-%m-%d %H:%M")
tf.reset_default_graph()
# Build neural network
phr_net = tflearn.input_data(shape=[None, len(phr_train_x[0])])
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, len(phr_train_y[0]), activation='softmax')
phr_net = tflearn.regression(phr_net)

# Define model and setup tensorboard
phr_model = tflearn.DNN(phr_net, tensorboard_dir='phr_tflearn_logs')
# Start training (apply gradient descent algorithm)
phr_model.fit(phr_train_x, phr_train_y, n_epoch=EPOCH_RUN_LENGTH, batch_size=8, show_metric=True)
phr_model.save('model.phr_tflearn')
print("start: ", start_time, "end: ", datetime.now().strftime("%Y-%m-%d %H:%M"))

Я хороший гуглер, и не нашел ничего, чтобы помочь. Документация AWS просто отправляет меня по кругу. У кого-нибудь есть совет?

1 Ответ

1 голос
/ 22 марта 2019

Спасибо за использование Amazon SageMaker.Я бы предложил открыть пост форума AWS в разделе AWS SageMaker https://forums.aws.amazon.com/forum.jspa?forumID=285&start=0, чтобы команда SageMaker могла вместе с вами узнать больше о том, какой тип экземпляра вы используете, ваш экземпляр Notebook Arn и т. Д.

...