Выбор характеристик с категориальной переменной высокого размера - PullRequest
0 голосов
/ 02 октября 2019

У меня есть набор данных, для которого я хотел бы сделать выбор функции с помощью CV. Все функции являются категориальными, а зависимая переменная является непрерывной. Прямо сейчас.

Проблема в том, что я ограничен другими факторами, которые требуют, чтобы категория либо полностью находилась в модели, либо вообще не входила в модель. Так, например, категориальная переменная city (подставляется в переменную для фактической) может иметь 100 000 категорий и, таким образом, на самом деле 100 000 объектов после того, как вы подставили код. Но из-за внешних ограничений я не могу включить некоторые из этих 100 000 и не включать некоторые из них. Я действительно тестирую, чтобы понять, следует ли включать City в целом.

Кто-нибудь знает о некоторых функциях в python (конвейер, PCA, LAR и т. Д.), Которые могут помочь мне сделать это? Любая литература или примеры были бы очень полезны.

До сих пор я только что попробовал жестко кодировать различные комбинации моделей с помощью очень запутанного кода.

Извините, код не отображается. Любой код здесь будет бессмысленным.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...