У меня есть набор данных о сотрудниках. И я хотел бы провести регрессионный анализ, чтобы увидеть, какие факторы в наибольшей степени влияют на статус сотрудника (активный или уволенный).
Но кажется, что некоторые элементы данных являются категориальными, которые в некоторой степени трудно заменить на фиктивные переменные.
Например, я хотел бы знать, есть ли у рабочего места какие-товлияние на увольнение работника. Но местоположение «состояний» оказывается более 20+. Нужно ли менять их на фиктивные переменные?
Кроме того, названия должностей, которые имеют более 10+.
Кто-нибудь может помочь?