Хороший подход - сначала пройти набор данных.
ВОЗРАСТ : в столбце Age
значения выглядят следующим образом: '0-17'
. Вам необходимо изменить его перед выполнением каких-либо операций с ним.
Самый простой способ - это взять одно среднее значение, которое будет понятно для машины. Почти так:
data['Age'] = data['Age'].map({'0-17': 15,
'18-25': 20})
Позже вы можете нормализовать этот столбец.
Категория города : следующий столбец City_Category
. Он имеет категорические данные, т.е. A, B, C
. Для обработки этих данных вы можете использовать LabelEncoder
из sklearn
.
from sklearn.preprocessing import LabelEncoder
Выходное значение будет: 0, 1 ,2
.