Как работать со столбцами типа «страна» и «возрастные группы» при создании модели прогнозирования в python? - PullRequest
0 голосов
/ 04 июня 2019

Я очень плохо знаком с машинным обучением, и пока я работал над этим конкретным набором данных, мне было трудно работать с такими важными столбцами, как возрастные группы и страна.

Вот ссылка на набор данных, который я использую:

https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016

В более точном прогнозе данных столбцы "страна" и "возрастная группа "очень важны.Но я постоянно получаю сообщения об ошибках типа:

{ 
  could not convert string to float: '15-24 years' 
}

И аналогично для столбца страны.

Что я могу сделать, чтобы сделать их подходящими для модели?

Ответы [ 2 ]

2 голосов
/ 04 июня 2019

Это «категориальные» атрибуты вашей модели машинного обучения. Обычно категориальным атрибутам присваивается целочисленное значение, чтобы модель ML могла их обрабатывать. Это основная тема машинного обучения, поэтому все, что я могу сделать, это предложить вам ознакомиться с категориальными данными. Возможно, эта ссылка или аналогичная даст вам начало.

0 голосов
/ 04 июня 2019

Данные, о которых вы говорите, являются категоричными.В основном данные, которые у вас есть в наборе данных, в основном порядковые (числовые) или категориальные.

Я бы порекомендовал вам обработать это путем преобразования категориальных переменных в фиктивные коды.Например, предположим, что у вас есть кадр данных, подобный приведенному ниже

Id, Country
1, US
2, UK
3, Germany

Преобразование этого в фиктивный код даст вам

Id, US, UK, Germany
1, 1,0,0
2, 0,1,0
3, 0,0,1

Существует несколько пакетов, которые преобразуют категориальные данные в фиктивные коды.Я думаю, что у панд тоже есть функция.

А затем приведенный выше фрейм данных можно использовать для обучения вашей модели

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...