Пробел и двоеточие не найдены в первой строке - PullRequest
0 голосов
/ 13 марта 2019

У меня в SageMaker есть блокнот jupyter, в котором я хочу запустить алгоритм XGBoost.Данные должны соответствовать 3 критериям: -Нет строки заголовка -Выходная переменная в первом столбце, функции в остальных столбцах -Все столбцы должны быть числовыми

Я получаю следующую ошибку:

    Error for Training job xgboost-2019-03-13-16-21-25-000: 
    Failed Reason: ClientError: Blankspace and colon not found in firstline 
'0.0,0.0,99.0,314.07,1.0,0.0,0.0,0.0,0.48027846,0.0...' of file 'train.csv'

В самой ошибке видно, что заголовков нет, вывод - это первый столбец (он просто принимает значения 1,0 и 0,0), а все функции являются числовыми.Данные хранятся в своем собственном ведре.

Я видел похожий вопрос в GitHub, но там нет решения.Кроме того, пример ноутбука, который есть в Amazon, не заботится об изменении sep по умолчанию или чего-либо еще при сохранении кадра данных в csv для последующего его использования.

1 Ответ

1 голос
/ 22 марта 2019

В сообщении об ошибке указывалось, что XGBoost ожидает входные данные, заданные в формате libsvm вместо csv. SageMaker XGBoost по умолчанию предполагал, что входной набор данных был в формате libsvm. Для использования набора входных данных в csv, пожалуйста, явно укажите content-type как text/csv.

Для получения дополнительной информации: https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html#InputOutput-XGBoost

...