Пакетное преобразование Sagemaker "ValueError: не удалось преобразовать строку в число с плавающей точкой" - PullRequest
0 голосов
/ 30 января 2020

Я использую локальный преобразователь, используя sagemaker и пакетное преобразование. Однако, похоже, что преобразование не вызывает мой пользовательский код.

Ниже приведен SKlearn init

from sagemaker.sklearn.estimator import SKLearn
source_dir = 'train'
script_path = 'train.py'

sklearn = SKLearn(
    entry_point=script_path,
    train_instance_type="local_gpu",
    source_dir=source_dir,
    role=role,
    sagemaker_session=sagemaker_session)
sklearn.fit({'train': "file://test.csv"})

train.py - это скрипт python, который загружает данные обучения, и сохраняет модель в S3

пакетное преобразование:

transformer = sklearn.transformer(instance_count=1,
                                  entry_point=source_dir+"/"+script_path,
                                  instance_type='local_gpu',
                                  strategy='MultiRecord',
                                  assemble_with='Line'
                                  )
transformer.transform("file://test_messages", content_type='text/csv', split_type='Line')
print('Waiting for transform job: ' + transformer.latest_transform_job.job_name)
transformer.wait()

file://test_messages содержит CSV, который является списком строк

Полная ошибка

algo-1-6c5rl_1  | 172.18.0.1 - - [30/Jan/2020:14:14:30 +0000] "GET /ping HTTP/1.1" 200 0 "-" "-"
algo-1-6c5rl_1  | 172.18.0.1 - - [30/Jan/2020:14:14:30 +0000] "GET /execution-parameters HTTP/1.1" 404 232 "-" "-"
algo-1-6c5rl_1  | 2020-01-30 14:14:30,846 ERROR - train - Exception on /invocations [POST]
algo-1-6c5rl_1  | Traceback (most recent call last):
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/sagemaker_containers/_functions.py", line 93, in wrapper
algo-1-6c5rl_1  |     return fn(*args, **kwargs)
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/sagemaker_sklearn_container/serving.py", line 56, in default_input_fn
algo-1-6c5rl_1  |     return np_array.astype(np.float32) if content_type in content_types.UTF8_TYPES else np_array
algo-1-6c5rl_1  | ValueError: could not convert string to float: 'IMPORTANT - You could be entitled up to �3,160 in compensation from mis-sold PPI on a credit card or loan. Please reply PPI for info or STOP to opt out.'
algo-1-6c5rl_1  | 
algo-1-6c5rl_1  | During handling of the above exception, another exception occurred:
algo-1-6c5rl_1  | 
algo-1-6c5rl_1  | Traceback (most recent call last):
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/flask/app.py", line 2446, in wsgi_app
algo-1-6c5rl_1  |     response = self.full_dispatch_request()
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/flask/app.py", line 1951, in full_dispatch_request
algo-1-6c5rl_1  |     rv = self.handle_user_exception(e)
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/flask/app.py", line 1820, in handle_user_exception
algo-1-6c5rl_1  |     reraise(exc_type, exc_value, tb)
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/flask/_compat.py", line 39, in reraise
algo-1-6c5rl_1  |     raise value
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/flask/app.py", line 1949, in full_dispatch_request
algo-1-6c5rl_1  |     rv = self.dispatch_request()
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/flask/app.py", line 1935, in dispatch_request
algo-1-6c5rl_1  |     return self.view_functions[rule.endpoint](**req.view_args)
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/sagemaker_containers/_transformer.py", line 200, in transform
algo-1-6c5rl_1  |     self._model, request.content, request.content_type, request.accept
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/sagemaker_containers/_transformer.py", line 227, in _default_transform_fn
algo-1-6c5rl_1  |     data = self._input_fn(content, content_type)
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/sagemaker_containers/_functions.py", line 95, in wrapper
algo-1-6c5rl_1  |     six.reraise(error_class, error_class(e), sys.exc_info()[2])
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/six.py", line 692, in reraise
algo-1-6c5rl_1  |     raise value.with_traceback(tb)
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/sagemaker_containers/_functions.py", line 93, in wrapper
algo-1-6c5rl_1  |     return fn(*args, **kwargs)
algo-1-6c5rl_1  |   File "/miniconda3/lib/python3.7/site-packages/sagemaker_sklearn_container/serving.py", line 56, in default_input_fn
algo-1-6c5rl_1  |     return np_array.astype(np.float32) if content_type in content_types.UTF8_TYPES else np_array
algo-1-6c5rl_1  | sagemaker_containers._errors.ClientError: could not convert string to float: 'IMPORTANT - You could be entitled up to �3,160 in compensation from mis-sold PPI on a credit card or loan. Please reply PPI for info or STOP to opt out.'
algo-1-6c5rl_1  | 172.18.0.1 - - [30/Jan/2020:14:14:30 +0000] "POST /invocations HTTP/1.1" 500 290 "-" "-"
.Waiting for transform job: sagemaker-scikit-learn-2020-01-30-14-14-30-490

Кажется, он не может обработать мою строку. У меня есть код в train.py для преобразования строки с использованием TfidfVectorizer, но этот код не вызывается

1 Ответ

1 голос
/ 03 февраля 2020

Я инженер в AWS SageMaker. Спасибо за предоставленную информацию о вашей настройке Estimator / Transformer, а также полный журнал ошибок.

Если посмотреть на указанную ошибку c, похоже, что контейнер Scikit-learn завершился ошибкой в ​​default_input_fn. К счастью, SageMaker Scikit-learn является открытым исходным кодом, поэтому мы можем получить прямой доступ к источнику sagemaker_sklearn_container / serve.py # L56 , чтобы помочь понять, как он работает.

Контейнер выбрал выполнение функции ввода «по умолчанию» для обработки ввода перед отправкой в ​​модель. Очевидно, что реализация по умолчанию не работает для желаемого формата ввода.

Подобно обучению, вам необходимо предоставить собственный код Python для управления тем, как SageMaker Scikit-learn обрабатывает вашу модель в режиме обслуживания / вывода. Если вы хотите переопределить значение по умолчанию, вам нужно внедрить input_fn в свой пользовательский код Python. Вы можете добавить это в свой train.py скрипт или передать другой файл Python в Transformer.

Этот do c должен быть бесполезен при написании input_fn: https://sagemaker.readthedocs.io/en/stable/using_sklearn.html#process -вход

Если у вас все еще есть проблемы, вы можете поделиться примерами из своего пользовательского кода.

...