Интерпретация nominal_test для ослабления предположения о пропорциональных шансах по конкретным переменным с использованием пакета CLM R - PullRequest
0 голосов
/ 03 июля 2019

Я пытался и искал, но не нашел много.

Я пытаюсь использовать CLM из порядкового пакета для анализа некоторых данных.Я понимаю, что функция clm имеет предположение о пропорциональных коэффициентах.Этот веб-сайт (https://rcompanion.org/handbook/G_01.html) говорит, что, если вы используете «nominal_test», и что если какая-либо из переменных нарушает предположение о пропорциональных коэффициентах (например, когда вы помещаете это в порядковый пакет функции nominal_test, и он возвращает значительный p-value), то вы можете выборочно ослабить предположение о пропорциональных коэффициентах для этих переменных. Поэтому я попробовал это, но не совсем понял, как действительно интерпретировать результаты.

Например, у меня есть код:

glm_results = clm(Z ~ A +  B +  C + D + E + F + G + H +I+J + K,
                     data = the_data,
                    link = "logit", threshold = "flexible")
nominal_test(glm_results)

Z, зависимая переменная, является упорядоченной переменной с уровнями 2, 3 и 4, которые 2 <3 <4. Остальные переменные являются категориальными, и все, кроме одной, имеют некоторую форму иерархической структуры. </p>

выходной сигнал nominal_test равен

            Df  logLik    AIC    LRT Pr(>Chi)   
<none>        -378.22 804.43                   
A           1 -376.94 803.88 2.5579 0.109744   
B           1 -377.61 805.22 1.2131 0.270710   
C           4 -374.13 804.26 8.1699 0.085549 . 
D           2 -376.76 805.53 2.9036 0.234153   
E           4 -376.40 808.79 3.6423 0.456581   
F           3 -373.67 801.33 9.0990 0.028003 * 
G           3 -377.56 809.13 1.3065 0.727584   
H           1 -374.36 798.72 7.7168 0.005471 **
I           1 -377.29 804.58 1.8543 0.173285   
J           1 -377.38 804.76 1.6760 0.195460   
K           1 -377.97 805.93 0.5000 0.479484 

. В соответствии с этим, только F и H не следуют предположению пропорциональных логарифмических шансов. Поэтому для этих переменных я могу ослабить F и H вмоя оригинальная формула GLM. Таким образом, я предполагаю, что это означает, что для всех переменных, кроме F и H, существует предположение пропорциональных шансов (тКоэффициент / разность, вносимый независимой переменной, одинаков, независимо от того, идет ли речь о сравнении зависимой переменной Z2 с Z3 или Z3 с Z4).Поэтому я ослабляю его в своей функции следующим образом:

glm_results = clm(Z ~ A +  B +  C + D + E + F + G + H +I+J + K,
                     data = the_data,
                    link = "logit", threshold = "flexible",
                    nominal = ~F+H)
summary(glm_results)

результаты выглядят следующим образом:

link  threshold nobs logLik  AIC    niter max.grad cond.H 
 logit flexible  446  -370.16 796.31 6(0)  3.22e-10 6.0e+02

Coefficients: (4 not defined because of singularities)
                         Estimate Std. Error z value Pr(>|z|)    
A           -0.28149    0.39319  -0.716 0.474045    
B           -0.00197    0.30173  -0.007 0.994792    
C4           1.35216    0.48257   2.802 0.005079 ** 
C5           1.19916    0.44374   2.702 0.006884 ** 
C6           1.69882    0.44899   3.784 0.000155 ***
C7           1.76681    0.45556   3.878 0.000105 ***
D2          -1.46896    0.36901  -3.981 6.87e-05 ***
D3          -0.52158    0.50353  -1.036 0.300275    
E2          -0.63759    0.33855  -1.883 0.059660 .  
E3          -0.79584    0.28221  -2.820 0.004801 ** 
E4          -0.07828    0.35013  -0.224 0.823081    
E5           0.02954    0.42210   0.070 0.944205    
F2             NA         NA      NA       NA    
F3             NA         NA      NA       NA    
F4             NA         NA      NA       NA    
G2          -0.72327    0.46516  -1.555 0.119969    
G3          -1.02087    0.38398  -2.659 0.007846 ** 
G4          -1.27764    0.44615  -2.864 0.004187 ** 
H            NA         NA      NA       NA    
I          -0.24169    0.53224  -0.454 0.649756    
J          -0.40141    0.54486  -0.737 0.461294    
K          -0.22664    0.55336  -0.410 0.682119    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Threshold coefficients:
                             Estimate Std. Error z value
2|3.(Intercept)              -2.63233    0.89030  -2.957
3|4.(Intercept)              -0.09137    0.88626  -0.103
2|3.F2       -0.78198    0.42903  -1.823
3|4.F2        0.13041    0.34849   0.374
2|3.F3       -0.68971    0.42141  -1.637
3|4.F3       -0.63912    0.33739  -1.894
2|3.F4       -0.33434    0.45516  -0.735
3|4.F4       -0.79488    0.36469  -2.180
2|3.H1       -0.94242    0.34311  -2.747
3|4.H1        0.01908    0.24686   0.077

Обратите внимание, что "особенности" - это переменные F и H, которые я выбрал длярасслабиться.Также обратите внимание, что E2, E3, E4, E5 и т. Д. Являются уровнями категориальных переменных.Вы получите коэффициент для каждого попарного сравнения с базовым / самым низким уровнем каждой категориальной переменной (E2 против E1, E3 против E1).Но у вас есть только один коэффициент для переменных, которые не ослаблены «номинальными», потому что мы предполагаем пропорциональные логарифмические шансы для этих переменных.Для «номинальных» переменных у вас есть два разных коэффициента для каждого уровня.Один для разности между 2 и 3 для зависимых переменных, а другой для разницы между 3 и 4. Это имеет смысл, потому что вы не предполагаете, что шансы одинаковы для 2 | 3 и 3 | 4.

Однако тогда я просто попытался расслабиться с помощью nominal для других переменных, которые не обязательно указывались в nominal_test для необходимости расслабления.Например, я сделал следующее:

glm_results = clm(Z ~ A +  B +  C + D + E + F + G + H +I+J + K,
                     data = the_data,
                    link = "logit", threshold = "flexible",
                    nominal = ~F+E+H)
summary(glm_results)

Я добавил переменную E к номиналу.Я получаю следующие результаты в разделе «Порог» для сводки, которая относится к «номинальным» расслабленным переменным:

              Estimate Std. Error z value
2|3.E2        1.34267    0.50887   2.639
3|4.E2        0.26653    0.36836   0.724
2|3.E3        0.80729    0.45744   1.765
3|4.E3        0.95040    0.33940   2.800
2|3.E4        0.23697    0.52950   0.448
3|4.E4        0.02926    0.40370   0.072
2|3.E5        0.48218    0.60322   0.799
3|4.E5       -0.18231    0.43848  -0.416

Так что моя проблема в том, что, на мой взгляд, если предположение о пропорциональных коэффициентах не является 't нарушается для переменной, не должны ли коэффициенты быть похожими для 2 | 3 и 3 | 4 этой категориальной переменной?Я мог бы на 1000% делать все это неправильно.Например, коэффициенты для 2 | 3.E4 и 3 | 4.E4 кажутся совершенно разными.Моя интерпретация неверна?Точно так же в тех, которые первоначально рассматривались как кандидаты на релаксацию (например, переменная F), коэффициенты 2 | 3.F3 и 3 | 4.F3 очень похожи.

Мне интересно, смогу ли я получить какое-то руководство о том, как именно их интерпретировать.Как правильно решить, какие переменные ослабить предположение о шансах?Я предположил, что для тех переменных, которые НЕ нарушают предположение о пропорциональных логарифмах, когда вы помещаете их в «номинальную» функцию, коэффициенты, которые вы получаете для 2 | 3 и 3 | 4 для одного и того же категориального попарного сравнения, должны быть похожими,Это неверное толкование или предположение?

Если это не самый лучший способ, как я могу использовать VGLM для тестирования, а затем ослабить определенные переменные в моем коде?

Спасибоза вашу поддержку и руководство.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...