Выполнение логистической регрессии на данных панели - PullRequest
1 голос
/ 29 мая 2019

Я хочу провести логистическую регрессию, чтобы рассчитать вероятность получения студентом степени магистра.

У меня есть набор данных, в котором содержится много студентов, которые прошли определенные курсы в определенные годы.Эти курсы также получают оценку (также как и преподаватель), и это зависит от курса и года.

Эти студенты могут или не могут получить степень магистра в том же университете.Основываясь на результатах, которые получает студент, исходя из рейтинга, который получает курс, исходя из количества посещений, которые делает студент, я хочу предсказать вероятность того, что студент будет учиться в магистратуре.Для этого я хочу запустить логистическую регрессию и, следовательно, мне нужно разделить данные на набор для обучения и проверки / тестирования.Однако, как вы видите, несколько строк могут вращаться вокруг одного и того же ученика.Например, строки с 1 по 12 вращаются вокруг ученика 9000006.

Проблема, возникающая при выполнении логистической регрессии, состоит в том, что регрессия рассматривает каждую строку как отдельную единицу, тогда как на самом деле учащиеся являются своего рода «сгруппированными».

      Programme Resits Student_ID Course_code Academic_year Course_Grade_Binned Graduated Master_Student Course.rating_M Rating.tutor_M Selfstudy_M
1            IB      0    9000006     ABC1198          2013                   B      TRUE              1             7.5            8.2        14.1
2            IB      0    9000006     ABC1192          2014                   B      TRUE              1             8.4            8.8        13.0
3            IB      0    9000006     ABC1277          2014                   A      TRUE              1             6.0            6.4        10.6
4            IB      0    9000006     ABC1448          2013                   B      TRUE              1             5.7            7.8        14.4
5            IB      0    9000006     ABC1120          2014                   B      TRUE              1             7.1            7.4        11.2
6            IB      0    9000006     ABC1362          2013                   B      TRUE              1             6.7            7.5        15.8
7            IB      0    9000006     ABC1213          2013                   C      TRUE              1             7.7            8.1        11.4
8            IB      0    9000006     ABC1382          2013                   B      TRUE              1             6.6            7.1        16.3
9            IB      0    9000006     ABC1108          2013                   C      TRUE              1             7.1            7.6        15.7
10           IB      1    9000006     ABC1329          2014                   B      TRUE              1             7.5            7.9        10.7
11           IB      0    9000006     ABC1126          2013                   B      TRUE              1             6.7            7.5        15.3
12           IB      0    9000006     ABC1003          2013                   B      TRUE              1             7.3            8.5        12.6
13           IB      0    9000014     ABC1309          2014                   B      TRUE              0             6.9            6.1        12.4
14           IB      0    9000014     ABC1198          2013                   A      TRUE              0             7.5            8.2        14.1
15           IB      0    9000014     ABC1277          2014                   A      TRUE              0             6.0            6.4        10.6
16           IB      0    9000014     ABC1448          2013                   A      TRUE              0             5.7            7.8        14.4
17           IB      0    9000014     ABC1362          2013                   B      TRUE              0             6.7            7.5        15.8
18           IB      0    9000014     ABC1213          2013                   B      TRUE              0             7.7            8.1        11.4
19           IB      0    9000014     ABC1152          2014                   A      TRUE              0             7.0            7.6        12.3
20           IB      0    9000014     ABC1382          2013                   A      TRUE              0             6.6            7.1        16.3
21           IB      0    9000014     ABC1108          2013                   B      TRUE              0             7.1            7.6        15.7
22           IB      0    9000014     ABC1455          2014                   A      TRUE              0             6.7            7.3        11.2
23           IB      0    9000014     ABC1126          2013                   B      TRUE              0             6.7            7.5        15.3
24           IB      0    9000014     ABC1003          2013                   A      TRUE              0             7.3            8.5        12.6
25           IB      1    9000028     ABC1213          2014                   C      TRUE              0             7.8            8.6        10.7
26           IB      0    9000028     ABC1198          2014                   B      TRUE              0             7.1            8.0        15.5

У кого-нибудь есть какие-либо советы о том, как выполнить логистическую регрессию для такого рода данных?Если у вас есть другое предложение для расчета вероятности того, что ученик будет учиться в магистратуре, пожалуйста, дайте мне знать:)

Приветствия!

...