Работает ли алгоритм кластеризации, хотя время ожидания Jupyter Notebook Gateway истекло? - PullRequest
0 голосов
/ 11 июля 2019

Я запускаю алгоритм sklearn DBSCAN для набора данных с размерностью 300000x50 в блокноте Jupyter на AWS Sagemaker (экземпляр вычисления "ml.t2.medium").Набор данных содержит векторы функций с 1: s и 0: s.

. После запуска ячейки через некоторое время в оранжевом окне в правом верхнем углу появляется сообщение «Время ожидания шлюза».Значок исчезает при нажатии на него, не предоставляя никакой дополнительной информации.Записная книжка не отвечает, пока вы не перезапустите экземпляр записной книжки.

Я пробовал разные значения параметров eps и min_samples, но безрезультатно.

db = DBSCAN(eps = 0.1, min_samples = 100).fit(transformed_vectors)

Означает ли "Время ожидания шлюза", что ядро ​​ноутбука вышло из строя, или я могу ожидать каких-либо результатов при ожидании?

До сих пор расчет выполнялся около 2 часов.

Gateway Timeout

1 Ответ

0 голосов
/ 20 июля 2019

вы всегда можете выбрать больший размер для своего экземпляра ноутбука (ml.t2.medium довольно мал), но я думаю, что лучшим способом было бы обучить ваш код на управляемом экземпляре SageMaker.Sklearn встроен в SageMaker, поэтому все, что вам нужно сделать, это принести свой скрипт, например:

from sagemaker.sklearn.estimator import SKLearn

sklearn = SKLearn(
    entry_point="my_code.py",
    train_instance_type="ml.c4.xlarge",
    role=role,
    sagemaker_session=sagemaker_session)

Вот полный пример: https://github.com/awslabs/amazon-sagemaker-examples/blob/master/sagemaker-python-sdk/scikit_learn_iris/Scikit-learn%20Estimator%20Example%20With%20Batch%20Transform.ipynb

...