Запуск регрессии с категориальной переменной, где допускается несколько вариантов - PullRequest
0 голосов
/ 23 января 2019

У меня есть такой набор данных:

df = data.frame(Employee = c('John','John','John','Tracy','Tracy','Tracy','Sarah','Sarah','Sarah'), 
                EmployeeID = c(1,1,1,2,2,2,3,3,3),
                Competency = c('agile','leadership','behavior','agile','awareness','analytical thinking','behavior','leadership','analytical thinking'),
                Rating = c(2,2,3,3,2,3,2,2,2),
                Performance = c(3,3,3,2,2,2,2,2,2))

Компетенции уникальны для каждой роли, поэтому 2 менеджера в одной роли будут иметь одинаковые компетенции, но 2 менеджера в разных ролях будут иметь разные компетенции

Я рассчитываю, какие факторы приведут к увеличению производительности.

Разумно ли было бы придумывать код для столбца компетенций, чтобы "сгладить" структуру данных, чтобы она составляла одну строку на сотрудника и получала средний рейтинг по компетенции?Это потеряло бы информацию о каждой компетенции.Есть ли способ запустить lm() без "выравнивания" данных?

Что-то вроде (псевдокод) lm(Performance~Competency + Rating, group_by(df1$employeeID)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...