Я хочу провести логистическую регрессию, чтобы рассчитать вероятность получения студентом степени магистра.
У меня есть набор данных, в котором содержится много студентов, которые прошли определенные курсы в определенные годы.Эти курсы также получают оценку (также как и преподаватель), и это зависит от курса и года.
Эти студенты могут или не могут получить степень магистра в том же университете.Основываясь на результатах, которые получает студент, исходя из рейтинга, который получает курс, исходя из количества посещений, которые делает студент, я хочу предсказать вероятность того, что студент будет учиться в магистратуре.Для этого я хочу запустить логистическую регрессию и, следовательно, мне нужно разделить данные на набор для обучения и проверки / тестирования.Однако, как вы видите, несколько строк могут вращаться вокруг одного и того же ученика.Например, строки с 1 по 12 вращаются вокруг ученика 9000006.
Проблема, возникающая при выполнении логистической регрессии, состоит в том, что регрессия рассматривает каждую строку как отдельную единицу, тогда как на самом деле учащиеся являются своего рода «сгруппированными».
Programme Resits Student_ID Course_code Academic_year Course_Grade_Binned Graduated Master_Student Course.rating_M Rating.tutor_M Selfstudy_M
1 IB 0 9000006 ABC1198 2013 B TRUE 1 7.5 8.2 14.1
2 IB 0 9000006 ABC1192 2014 B TRUE 1 8.4 8.8 13.0
3 IB 0 9000006 ABC1277 2014 A TRUE 1 6.0 6.4 10.6
4 IB 0 9000006 ABC1448 2013 B TRUE 1 5.7 7.8 14.4
5 IB 0 9000006 ABC1120 2014 B TRUE 1 7.1 7.4 11.2
6 IB 0 9000006 ABC1362 2013 B TRUE 1 6.7 7.5 15.8
7 IB 0 9000006 ABC1213 2013 C TRUE 1 7.7 8.1 11.4
8 IB 0 9000006 ABC1382 2013 B TRUE 1 6.6 7.1 16.3
9 IB 0 9000006 ABC1108 2013 C TRUE 1 7.1 7.6 15.7
10 IB 1 9000006 ABC1329 2014 B TRUE 1 7.5 7.9 10.7
11 IB 0 9000006 ABC1126 2013 B TRUE 1 6.7 7.5 15.3
12 IB 0 9000006 ABC1003 2013 B TRUE 1 7.3 8.5 12.6
13 IB 0 9000014 ABC1309 2014 B TRUE 0 6.9 6.1 12.4
14 IB 0 9000014 ABC1198 2013 A TRUE 0 7.5 8.2 14.1
15 IB 0 9000014 ABC1277 2014 A TRUE 0 6.0 6.4 10.6
16 IB 0 9000014 ABC1448 2013 A TRUE 0 5.7 7.8 14.4
17 IB 0 9000014 ABC1362 2013 B TRUE 0 6.7 7.5 15.8
18 IB 0 9000014 ABC1213 2013 B TRUE 0 7.7 8.1 11.4
19 IB 0 9000014 ABC1152 2014 A TRUE 0 7.0 7.6 12.3
20 IB 0 9000014 ABC1382 2013 A TRUE 0 6.6 7.1 16.3
21 IB 0 9000014 ABC1108 2013 B TRUE 0 7.1 7.6 15.7
22 IB 0 9000014 ABC1455 2014 A TRUE 0 6.7 7.3 11.2
23 IB 0 9000014 ABC1126 2013 B TRUE 0 6.7 7.5 15.3
24 IB 0 9000014 ABC1003 2013 A TRUE 0 7.3 8.5 12.6
25 IB 1 9000028 ABC1213 2014 C TRUE 0 7.8 8.6 10.7
26 IB 0 9000028 ABC1198 2014 B TRUE 0 7.1 8.0 15.5
У кого-нибудь есть какие-либо советы о том, как выполнить логистическую регрессию для такого рода данных?Если у вас есть другое предложение для расчета вероятности того, что ученик будет учиться в магистратуре, пожалуйста, дайте мне знать:)
Приветствия!