Обновите действующий AWS Sagemaker автоматически масштабируемый тип экземпляра конечной точки, не выключая его - PullRequest
0 голосов
/ 27 февраля 2020

У меня есть одна живая AWS конечная точка Sagemaker, где мы включили автоматическое масштабирование. Теперь я хочу обновить его с «ml.t2.xlarge» до «ml.t2.2xlarge», но он показывает эту ошибку

botocore.exceptions.ClientError: An error occurred (ValidationException) when calling the 
UpdateEndpoint operation: The variant(s) "[config1]" must be deregistered as scalable targets with 
Application Auto Scaling before they can be removed or have their instance type updated.

Я считаю, что сначала нам нужно отменить автоматическое масштабирование, используя эта ссылка https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-delete.html

, но я сомневаюсь, что наше заявление будет отклонено, а новая модель с обучением займет несколько часов. Мы не можем себе этого позволить, поэтому, пожалуйста, дайте мне знать, если есть лучший способ сделать это.

1 Ответ

1 голос
/ 27 февраля 2020

У вас не должно возникнуть проблем при обновлении типа экземпляра Endpoint без получения информации о доступности. Метод basi c выглядит следующим образом при активной политике автоматического масштабирования:

  1. Создайте новый EndpointConfig, который использует новый тип экземпляра, ml.t2.2xlarge
    1. Сделайте это, вызвав CreateEndpointConfig.
    2. Передайте те же значения, которые вы использовали для предыдущей конфигурации конечной точки. Вы можете указать на тот же ModelName, что и вы. Повторно используя ту же модель, вам не нужно переучивать ее или что-либо еще
  2. Удалить существующую политику автоматического масштабирования
    1. В зависимости от вашего автоматического масштабирования, Возможно, вы захотите увеличить желаемое количество вашей конечной точки в случае, если вам нужно масштабировать, пока вы делаете это.
    2. Если вы испытываете всплеск трафика c во время выполнения этих вызовов API, вы рискуйте отключением вашей модели, если она не успевает за траффиком c. Просто имейте это в виду и, возможно, заранее масштабируйте эту возможность.
  3. Позвоните UpdateEndpoint, как вы это делали ранее, и укажите этот новый EndpointConfigName
  4. Подождите, пока ваш Состояние конечной точки должно быть InService. Это должно занять 10-20 минут.
  5. Создать новую политику автомасштабирования для этой новой конечной точки и производственного варианта

Вы должны быть хороши до go без жертвуя доступностью.

...