Question

Я пытаюсь построить и развернуть простую нейронную сеть в MXNet и развернуть ее на сервере, используя mxnet-model-server.

Самая большая проблема заключается в развертывании модели - сбой сервера модели после загрузки файла .mar, но я понятия не имею, в чем проблема.

Я использовал следующий код для создания собственной (но очень простой) нейронной сети для тестирования:

from __future__ import print_function
import numpy as np
import mxnet as mx
from mxnet import nd, autograd, gluon

data_ctx = mx.cpu()
model_ctx = mx.cpu()

# fix the seed
np.random.seed(42)
mx.random.seed(42)

num_examples = 1000

X = mx.random.uniform(shape=(num_examples, 49))
y = mx.random.uniform(shape=(num_examples, 1))
dataset_train = mx.gluon.data.dataset.ArrayDataset(X, y)

dataset_test = dataset_train

data_loader_train = mx.gluon.data.DataLoader(dataset_train, batch_size=25)
data_loader_test = mx.gluon.data.DataLoader(dataset_test, batch_size=25)

num_outputs = 2
net = gluon.nn.HybridSequential()
net.hybridize()
with net.name_scope():
    net.add(gluon.nn.Dense(49, activation="relu"))
    net.add(gluon.nn.Dense(64, activation="relu"))
    net.add(gluon.nn.Dense(num_outputs))

net.collect_params().initialize(mx.init.Normal(sigma=.1), ctx=model_ctx)
softmax_cross_entropy = gluon.loss.SoftmaxCrossEntropyLoss()
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': .01})

epochs = 1
smoothing_constant = .01

for e in range(epochs):
    cumulative_loss = 0
    for i, (data, label) in enumerate(data_loader_train):
        data = data.as_in_context(model_ctx).reshape((-1, 49))
        label = label.as_in_context(model_ctx)
        with autograd.record():
            output = net(data)
            loss = softmax_cross_entropy(output, label)
        loss.backward()
        trainer.step(data.shape[0])
        cumulative_loss += nd.sum(loss).asscalar()

После, экспортировал модель, используя:

net.export("model_files/my_project")

Результатом являются файлы .json и .params.

Я создал подпись. Json

{
  "inputs": [
    {
      "data_name": "data",
      "data_shape": [
        1,
        49
      ]
    }
  ]
}

Обработчик модели такой же, как и в руководстве по mxnet:

# Copyright 2018 Amazon.com, Inc. or its affiliates. All Rights Reserved.
# Licensed under the Apache License, Version 2.0 (the "License").
# You may not use this file except in compliance with the License.
# A copy of the License is located at
#     http://www.apache.org/licenses/LICENSE-2.0
# or in the "license" file accompanying this file. This file is distributed
# on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either
# express or implied. See the License for the specific language governing
# permissions and limitations under the License.

"""
ModelHandler defines a base model handler.
"""
import logging
import time


class ModelHandler(object):
    """
    A base Model handler implementation.
    """

    def __init__(self):
        self.error = None
        self._context = None
        self._batch_size = 0
        self.initialized = False

    def initialize(self, context):
        """
        Initialize model. This will be called during model loading time

        :param context: Initial context contains model server system properties.
        :return:
        """
        self._context = context
        self._batch_size = context.system_properties["batch_size"]
        self.initialized = True

    def preprocess(self, batch):
        """
        Transform raw input into model input data.

        :param batch: list of raw requests, should match batch size
        :return: list of preprocessed model input data
        """
        assert self._batch_size == len(batch), "Invalid input batch size: {}".format(len(batch))
        return None

    def inference(self, model_input):
        """
        Internal inference methods

        :param model_input: transformed model input data
        :return: list of inference output in NDArray
        """
        return None

    def postprocess(self, inference_output):
        """
        Return predict result in batch.

        :param inference_output: list of inference output
        :return: list of predict results
        """
        return ["OK"] * self._batch_size

    def handle(self, data, context):
        """
        Custom service entry point function.

        :param data: list of objects, raw input from request
        :param context: model server context
        :return: list of outputs to be send back to client
        """
        self.error = None  # reset earlier errors

        try:
            preprocess_start = time.time()
            data = self.preprocess(data)
            inference_start = time.time()
            data = self.inference(data)
            postprocess_start = time.time()
            data = self.postprocess(data)
            end_time = time.time()

            metrics = context.metrics
            metrics.add_time("PreprocessTime", round((inference_start - preprocess_start) * 1000, 2))
            metrics.add_time("InferenceTime", round((postprocess_start - inference_start) * 1000, 2))
            metrics.add_time("PostprocessTime", round((end_time - postprocess_start) * 1000, 2))

            return data
        except Exception as e:
            logging.error(e, exc_info=True)
            request_processor = context.request_processor
            request_processor.report_status(500, "Unknown inference error")
            return [str(e)] * self._batch_size

После этого я создал файл .mar, используя:

model-archiver --model-name my_project --model-path my_project --handler ssd_service:handle

Запуск модели на сервере:

mxnet-model-server --start --model_store my_project --models ssd=my_project.mar

Я буквально следил за каждым уроком: https://github.com/awslabs/mxnet-model-server

Однако сервер падает. Рабочий умирает, внутренний сервер умирает, рабочие отключаются, загрузка модели не удалась: ssd, ошибка: рабочий умер

Я понятия не имею, что делать, поэтому я был бы очень рад, если бы вы мне помогли!

Best

Sergei · Answer 1 · 26 марта 2019

Я опробовал ваш код, и он отлично работает на моем ноутбуке. Если я бегу: curl -X POST http://127.0.0.1:8080/predictions/ssd -F "data=[0 1 2 3 4]", я получаю: OK%

Я могу только догадываться, почему это не работает на вашем компьютере:

Обратите внимание, что аргумент model-store должен быть записан с -, а не с _, как в вашем примере. Моя команда для запуска mxnet-model-server выглядит так: mxnet-model-server --start --model-store ./ --models ssd=my_project.mar
Какую версию mxnet-model-server вы используете? Последняя версия 1.0.2, но у меня установлена 1.0.1, так что, возможно, вы захотите понизить версию и попробовать: pip install mxnet-model-server==1.0.1.
Тот же вопрос к версии MXNet. В моем случае я использую ночные сборки, которые я получаю через pip install mxnet --pre. Я вижу, что ваша модель очень простая, поэтому она не должна сильно зависеть ... Тем не менее, на всякий случай установите 1.4.0 (текущую).

Не уверен, но надеюсь, что это поможет вам.

Как развернуть простую нейронную сеть из AZ в MXNet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как развернуть простую нейронную сеть из AZ в MXNet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы