У меня есть такой набор данных:
df = data.frame(Employee = c('John','John','John','Tracy','Tracy','Tracy','Sarah','Sarah','Sarah'),
EmployeeID = c(1,1,1,2,2,2,3,3,3),
Competency = c('agile','leadership','behavior','agile','awareness','analytical thinking','behavior','leadership','analytical thinking'),
Rating = c(2,2,3,3,2,3,2,2,2),
Performance = c(3,3,3,2,2,2,2,2,2))
Компетенции уникальны для каждой роли, поэтому 2 менеджера в одной роли будут иметь одинаковые компетенции, но 2 менеджера в разных ролях будут иметь разные компетенции
Я рассчитываю, какие факторы приведут к увеличению производительности.
Разумно ли было бы придумывать код для столбца компетенций, чтобы "сгладить" структуру данных, чтобы она составляла одну строку на сотрудника и получала средний рейтинг по компетенции?Это потеряло бы информацию о каждой компетенции.Есть ли способ запустить lm()
без "выравнивания" данных?
Что-то вроде (псевдокод) lm(Performance~Competency + Rating, group_by(df1$employeeID)