Я пытаюсь запустить задание вывода пакетного преобразования с использованием файла данных паркета, но ничего не могу найти. Везде говорится, что пакетное преобразование принимает формат только как text / csv или json. В целях тестирования я попытался использовать лямбда-функцию внутри учетной записи AWS для вызова данных parque, но задание пакетного преобразования так и не удалось. Имея ClientError: 400, ошибка анализа данных.
request = \
{
"TransformJobName": batch_job_name,
"ModelName": model_name,
"BatchStrategy": "MultiRecord",
"TransformOutput": {
"S3OutputPath": batch_output
},
"TransformInput": {
"DataSource": {
"S3DataSource": {
"S3DataType": "S3Prefix",
"S3Uri": batch_input
}
},
"ContentType": "application/x-parquet",
"SplitType": "Line",
"CompressionType": "None"
},
"TransformResources": {
"InstanceType": "ml.m4.xlarge",
"InstanceCount": 1
}
}
client.create_transform_job(**request)
return "Done"
В настоящее время я пытаюсь запустить задание пакетного преобразования sagemaker локально, используя файл данных parque. У меня есть изображение docker, которое я могу запустить для "обслуживания" в моем локальном терминале, и я могу вызывать данные с помощью службы REST API Postman из "localhost: 8080 / invocations", используя функцию ввода "Binary" для загрузки файла данных parque . Он работает нормально, и я вижу, как данные заполняются в теле почтальона. Однако я не могу использовать данные parque для пакетного преобразования.
Кто-нибудь успешно использовал файл parquet для преобразования и прогнозирования с помощью пакетного преобразования sagemaker?