Выбор наиболее информативных категориальных признаков для мультиклассовой модели классификации ML - PullRequest
0 голосов
/ 01 декабря 2018

У меня есть набор данных для всего программного обеспечения, установленного большой группой пользователей.Я должен был бы классифицировать пользователей в одну из 4 категорий в зависимости от того, какое программное обеспечение они установили (каждый пользователь может установить до 30 единиц программного обеспечения).

Категории сильно несбалансированны - одна категория содержит почти 45% пользователей в наборе обучающих данных, другая - 35%, третья - только 15% и четвертая - только 5%.Предположим, что эти 4 категории примерно соответствуют 4 различным типам ИТ-заданий (например, «Инженер-программист», «DevOp», «Аналитик» и т. Д.).

«Программное обеспечение» - это функция, имеющая большую мощность (выше 1000), поэтому использование наивного однократного кодирования не представляется целесообразным.

Я бы хотел определить подмножество информативных значений / уровней для этой переменной.Например, программное обеспечение, такое как антивирусная программа, вероятно, плохо различает эти категории, поскольку все или большинство пользователей установят его.Специализированный инструмент (например, IDE) может лучше различаться, т. Е. Частота его появления может быть разной в каждой категории ИТ-работы.

Как определить такие «информативные» функции с помощью Python?Используем ли мы sklearn.feature_selection.chi2?Или мы используем sklearn.feature_selection.mutual_info_classif?Или есть какой-то другой метод?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...