Я использую amazon SageMaker для обучения моделей и прогнозирования.Тем не менее, у меня есть проблемы, InvokeEndpoint все еще имеет ограничение в 5 МБ на запрос.
Однако, я более миллиона строк в качестве отдельных входов, я знаю, что я должен смотреть на отправку отдельных запросов для каждого из них или разделение ввода нанекоторый размер пакета, который удобно помещается под лимит, и отправка каждой партии в виде отдельного запроса (возможно, параллельно одной и той же конечной точке).
### Making predictions based on 1 dataframe of 500 rows
### aproximately 500 rows are ~500MB
num_predict_rows <- 500
test_sample <- as.matrix(gender_test[1:num_predict_rows, ])
dimnames(test_sample)[[2]] <- NULL
library(stringr)
predictions <- model_endpoint$predict(data_tbl_test)
predictions <- str_split(predictions, pattern = ',', simplify = TRUE)
predictions <- as.numedimnames(data_tbl_test)[[2]] <- NULLric(predictions)
data_tbl_pred <- cbind(predicted_sample = predictions, data_tbl_test[1:num_predict_rows, ])
Мои вопросы
, как мне написать функцию
- , которая разбивает фрейм входных данных на менее чем 500 строк (<5 МБ) </li>
- поэтому у меня будет n пакетов данных
- , тогда я могу делать прогнозы на основе приведенного выше кода для всех пакетов
- наконец, у меня должен бытьобъединенный фрейм данных со всеми прогнозами для n bacthes
Заранее спасибо