ниже приведен список уникальных значений из набора данных. Итак, у меня есть независимые переменные, как показано ниже: -
<br/><br/>
fueltype [‘gas’ ‘diesel’]<br/>
aspiration [‘std’ ‘turbo’]<br/>
doornumber [‘two’ ‘four’]<br/>
carbody [‘convertible’ ‘hatchback’ ‘sedan’ ‘wagon’ ‘hardtop’]<br/>
drivewheel [‘rwd’ ‘fwd’ ‘4wd’]<br/>
enginelocation [‘front’ ‘rear’]<br/>
enginetype [‘dohc’ ‘ohcv’ ‘ohc’ ‘l’ ‘rotor’ ‘ohcf’ ‘dohcv’]<br/>
cylindernumber ['four' 'six' 'five' 'three' 'twelve' 'two' 'eight']<br/>
fuelsystem ['mpfi' '2bbl' 'mfi' '1bbl' 'spfi' '4bbl' 'idi' 'spdi']<br/>
, и я хочу создать модель для прогнозирования цены автомобиля с использованием множественной линейной регрессии.Нужно ли мне отображать данные, как показано ниже?
df[‘fueltype’] = df[‘fueltype’].map({‘gas’: 1, ‘diesel’: 0})<br/>
df[‘aspiration’] = df[‘aspiration’].map({‘std’: 1, ‘turbo’: 0})<br/>
Если да, то как мне управлять данными, имеющими 8 различных категориальных значений (например, fuelsystem) для конкретного столбца?.
Также, как предсказать мультиколлинеарность, когда есть почти каждая следующая независимая переменная, имеющая категориальные данные?