У нас есть огромный набор данных в формате CSV, содержащий несколько числовых элементов, таких как:
Year,BinaryDigit,NumberToPredict,JustANumber, ...other stuff
1954,1,762,16, ...other stuff
1965,0,142,16, ...other stuff
1977,1,172,16, ...other stuff
Дело в том, что существует сильная корреляция между третьим столбцом и столбцами до этого. Итак, я предварительно обработал данные, и теперь они доступны в формате, который я считаю идеальным:
1954,1,762
1965,0,142
1977,1,172
То, что я хочу, - это предсказание значения в третьем столбце, используя первые два в качестве входных данных. Итак, в приведенном выше случае я хочу, чтобы вход 1965,0 возвращал 142. В реальной жизни этот файл состоит из тысяч строк, но, поскольку существует шаблон, я бы хотел получить максимально возможное значение.
До сих пор я настраивал задание поезда для файла CSV с использованием алгоритма L inear Learner со следующими настройками:
label_size = 1
feature_dim = 2
predictor_type = regression
Я также создал модель из нее и настроил конечную точку. Когда я призываю его, я получаю счет в ответ.
response = runtime.invoke_endpoint(EndpointName=ENDPOINT_NAME,
ContentType='text/csv',
Body=payload)
Моя цель здесь - получить прогноз для третьего столбца. Как я могу этого достичь? Я прочитал много документации по этому вопросу, но так как я не очень хорошо знаком с AWS, я мог бы использовать неправильные алгоритмы для того, что я пытаюсь сделать.
(Пожалуйста, не стесняйтесь редактировать этот вопрос, чтобы лучше соответствовать терминологии AWS)