sklearn закодировать иерархическую особенность для обучения - PullRequest
0 голосов
/ 13 октября 2018

Имеет ли sklearn эффективный способ кодирования иерархических объектов со многими уникальными значениями?

Вот контекст: у меня есть набор данных о ценах на автомобили, и я хочу построить модель (регрессии и случайного леса) для прогнозированияцена автомобиля.В наборе данных две функции являются категориальными: производитель и модель.Например, производитель включает в себя Nissian, Honda и т. Д., А модель включает Skyline, Accord и т. Д. Каждая модель принадлежит производителю, поэтому она формирует иерархию между этими двумя функциями.

Существует 50разные марки и 900 разных моделей в наборе данных.Я попытался использовать LabelEncoder и OneHotEncoder от sklearn для кодирования этих двух функций, что привело к очень большой разреженной матрице с более чем 900 фиктивными переменными в каждой строке.Очевидно, что здесь используется иерархия между создателем и моделью, и это приведет к неэффективности модели обучения.Есть ли лучший способ кодировать эти две функции с помощью sklearn?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...