Формат строковых данных CSV для модели XGBoost - PullRequest
0 голосов
/ 28 сентября 2018

Я новичок в Sagemaker, и у меня возникают проблемы с поиском примеров импорта строковых данных в формате CSV в XGBoost.

В частности, может ли он обрабатывать иностранные символы (если да, то какая кодировка)?Как он узнает, по какому столбцу (переменной) он мне понадобится для прогнозирования?

Спасибо.

1 Ответ

0 голосов
/ 13 октября 2018

Чтобы использовать SageMaker XGBoost с вводом csv, вам необходимо подготовить набор данных в формате label, feature_1, feature_2, ... в каждой строке.

XGBoost может обрабатывать только числовые значения в качестве входных данных.Если у вас есть посторонние символы во входных данных, вам нужно сначала закодировать их перед передачей в XGBoost.В зависимости от вашего набора данных, вы должны использовать метод кодирования, наиболее подходящий для ваших данных.

Для ввода csv SageMaker XGBoost всегда предполагает, что первый столбец является меткой / целью.

...