Взаимодействия в модели пропорционального риска Кокса: проблема между контрастами и двумя категориальными факторами - PullRequest
0 голосов
/ 29 апреля 2020

Мне нужна помощь, чтобы понять, как работает функция coxph () в R, и, следовательно, как ПРАВИЛЬНО интерпретировать вывод.

Я пытаюсь запустить модель пропорционального риска Кокса на данных «анализа выживания» установить с двумя факторами: пол и генотип. Половой фактор имеет две категориальные переменные: «m» для мужчин и «f» для женщин. Фактор генотипа имеет три категориальные переменные: «Ctrl», «nKO», «CRE_Ctrl». Я хочу посмотреть, есть ли взаимодействие, поэтому я сделал:

library(survival)
Survival = Surv(time = D$Age, event = D$outcome) #D is my dataframe, Age is time of death, outcome is the column for censored individuals.

Кроме того, я также хочу увидеть следующие контрасты: «nKO против Ctrl» и «nKO против CRE_Ctrl». Таким образом, я установил nKO в качестве базовой линии для своих контрастов, используя эту строку:

D$Genotype = relevel(D$Genotype, ref = "nKO")
colnames(contrasts(D$Genotype)) = c(' (nKO vs CRE_Ctrl)', ' (nKO vs Ctrl)')

Итак, в конце я запускаю эту последнюю строку:

coxph(data = mydata, formula = Survival ~ Sex * Genotype)

Вывод выглядит так :

                                   coef exp(coef) se(coef)      z        p
Sexm                            -0.5769    0.5616   0.2294 -2.514 0.011925
Genotype (nKO vs CRE_Ctrl)      -0.9983    0.3685   0.2593 -3.850 0.000118
Genotype (nKO vs Ctrl)          -0.4072    0.6655   0.2461 -1.654 0.098034
Sexm:Genotype (nKO vs CRE_Ctrl)  0.5940    1.8111   0.3483  1.705 0.088147
Sexm:Genotype (nKO vs Ctrl)      0.5607    1.7520   0.3444  1.628 0.103539

ОК, похоже, у меня есть все, что я хочу. Однако я заметил одну вещь! Когда я изменяю базовую линию для фактора пола на «m» вместо «f», как указано выше, я получаю другой вывод:

D$Sex = relevel(D$Sex, ref = "m")
coxph(data = D, formula = Survival ~ Sex * Genotype)

                                   coef exp(coef) se(coef)      z      p
Sexf                             0.5769    1.7805   0.2294  2.514 0.0119
Genotype (nKO vs CRE_Ctrl)      -0.4044    0.6674   0.2438 -1.658 0.0972
Genotype (nKO vs Ctrl)           0.1536    1.1660   0.2406  0.638 0.5232
Sexf:Genotype (nKO vs CRE_Ctrl) -0.5940    0.5521   0.3483 -1.705 0.0881
Sexf:Genotype (nKO vs Ctrl)     -0.5607    0.5708   0.3444 -1.628 0.1035

Вы можете видеть, что у меня есть выходной сигнал oposite для Sexf, Sexf: Генотип (nKO против CRE_Ctrl) и Sexf: Генотип (nKO против Ctrl), что я понимаю. Но не для Генотипа (nKO против CRE_Ctrl), Генотипа (nKO против Ctrl), который я не понимаю. Итак, я не понимаю, что здесь происходит. Почему мои контрасты в отношении фактора генотипа без взаимодействий, по-видимому, зависят от базовой линии из фактора пола? В самом деле, вы даже можете видеть, что значения p значимы, когда f является базовой линией (первый вывод coxph) для моего генотипа, тогда как значения p не имеют значения, когда m является базовой линией (второй выход coxph). Итак, кому доверять?

Не могли бы вы объяснить, почему это происходит, пожалуйста? Это мой первый анализ выживаемости, и я могу не знать о многих вещах, касающихся этого типа анализов.

Заранее спасибо за ваши ответы,

1 Ответ

0 голосов
/ 29 апреля 2020

Вы совершаете распространенную ошибку. Интерпретация модельных предсказаний для моделей взаимодействия не должна фокусироваться на интерпретации основных эффектов. (К сожалению, этот факт не понят многими учителями статистики, и довольно часто слышат даже опытные пользователи статистики, пытающиеся говорить о значении коэффициентов основных эффектов в терминах взаимодействия.) «Контрастов для фактора Генотипа без взаимодействий нет» , хотя было бы в модели невзаимодействия. Поскольку вы построили модель взаимодействия, коэффициенты генотипа можно интерпретировать только путем одновременного указания одного пола или другого. Вместо этого вы должны сосредоточиться на предсказаниях и сравнениях конкретной комбинации переменных. Это то, что подразумевает модель взаимодействия, т.е. вам нужно знать обе переменные одновременно. У вас действительно есть 6 различных возможных ситуаций, поэтому, когда вы выбираете новую исходную ситуацию, то не должно быть сюрпризом, что все относительные риски по сравнению с новым исходным изменяются.

Коэффициенты пола неявно сочетаются с одинаковыми контрольный уровень переменной Genotype. Это то, что позволяет абсолютным значениям быть одинаковыми. В случае nKO против CRE_Ctrl обратите внимание, что -0.4044 -0.5940 равняется -0.9984, что равно -0.9983 до ошибки округления. И для генотипа (nKO против Ctrl); -0,4072 + 0,5607 равно 0,1536 с точностью до ошибки округления. Вы смотрите на те же различия в масштабе журнала, но с «разных точек зрения».

Если бы у нас были данные для работы, мы могли бы проиллюстрировать это лучше, сделав такие прогнозы.

...