Как бороться со многими категориальными данными? Нужно ли менять их на фиктивные переменные? - PullRequest
0 голосов
/ 25 октября 2019

У меня есть набор данных о сотрудниках. И я хотел бы провести регрессионный анализ, чтобы увидеть, какие факторы в наибольшей степени влияют на статус сотрудника (активный или уволенный).

Но кажется, что некоторые элементы данных являются категориальными, которые в некоторой степени трудно заменить на фиктивные переменные.

Например, я хотел бы знать, есть ли у рабочего места какие-товлияние на увольнение работника. Но местоположение «состояний» оказывается более 20+. Нужно ли менять их на фиктивные переменные?

Кроме того, названия должностей, которые имеют более 10+.

Кто-нибудь может помочь?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...