У меня есть данные по оценкам удовлетворенности по 5 вопросам за 3 года (с 2016 по 2018).Моя цель - определить, какой из 5 вопросов испытал тенденцию наиболее статистически значимую в сторону повышения и в сторону понижения за этот трехлетний период.
Myфиктивный фрейм данных выглядит следующим образом -
df = data.frame(Question = c('Q1','Q1','Q1','Q2','Q2','Q2','Q3','Q3','Q3','Q4','Q4','Q4','Q5','Q5','Q5'),
Year = c('2016','2017','2018','2016','2017','2018','2016','2017','2018','2016','2017','2018','2016','2017','2018'),
Score = c(0.8,0.6,0.2,0.2,0.4,0.8,0.4,0.5,0.4,0.1,0.2,0.1,0.9,0.7,0.3),
Count = c(226,117,200,323,311,380,411,408,407,222,198,201,665,668,670))
Для этого я использовал функцию lm
в R для создания линейной модели.
lm(Score ~ Question * as.numeric(Year), data = df)
Однако, чтобы определить наиболеезначительные восходящие и нисходящие трендовые вопросы, я думал о сохранении коэффициентов модели в кадре данных, а затем рассматривал самые высокие и самые низкие коэффициенты как мои наиболее значимые восходящие и нисходящие трендовые вопросы.
Мой первыйвопрос - Использую ли я правильный подход к тому, чего я хочу достичь?
И мой второй вопрос - Если я использую правильный подход, как я могу сохранить этиэффективность в кадре данных и отфильтровывать верхнее и нижнее значения?
Любая помощь по этому вопросу будет высоко оценена.