Невероятно широкие доверительные интервалы, полученные с помощью функции Surfit () для данных с интервальной цензурой - PullRequest
1 голос
/ 05 мая 2020

У меня есть данные, которые генерируются периодическими интервью, в которых человека спрашивают, испытывает ли он определенный симптом. Последний раз, когда каждый человек был известен не этим конкретным симптомом, обозначается как tstart. Если применимо, время, когда наблюдается развитие симптома у человека, составляет tstop. Используя пакет survival в R, создается объект выживания с функцией Surv, указывающей, что это данные с интервальной цензурой. Я хотел бы получить непараметрическую c оценку максимального правдоподобия функции выживания. Это может быть выполнено с помощью функции survfit, которая, кажется, передает вызов внутренней функции survfitTurnbull. Полученные доверительные интервалы невероятно широки. Я не могу понять, почему это так.

# A random sample of the data using dput()
structure(list(tstart = c(0.01, 38, 0.01, 0.01, 23, 26, 0.01, 
19, 0.01, 0.01, 22, 6, 0.01, 14, 16, 0.01, 0.01, 0.01, 0.01, 
21, 15, 0.01, 0.01, 13, 10, 0.01, 0.01, 19, 0.01, 0.01, 0.01, 
0.01, 22, 17, 27, 14, 16, 0.01, 20, 27, 10, 0.01, 0.01, 16, 20, 
7, 6, 15, 0.01, 0.01), tstop = c(4.01, NA, 5.01, 8.01, NA, NA, 
5.01, NA, 3.01, 16.01, NA, 6.01, 8.01, NA, NA, 7.01, 16.01, 1.01, 
10.01, NA, NA, 5.01, 8.01, NA, NA, 2.01, 3.01, NA, 7.01, 5.01, 
2.01, 9.01, NA, NA, NA, NA, NA, 10.01, NA, NA, NA, 5.01, 10.01, 
NA, NA, NA, 7.01, NA, 14.01, 4.01)), row.names = c(NA, -50L), class = "data.frame")

survObj <- with(temp_df, Surv(time = tstart, time2 = tstop, type = "interval2"))
survFit <- survfit(SurvObj ~ 1))
summary(survFit)

Доверительный интервал не сужается со временем. Он не уже с использованием всего набора данных (который содержит примерно в 10 раз больше событий). Я не могу понять, что происходит не так.

1 Ответ

2 голосов
/ 05 мая 2020

Как бы то ни было, это не похоже на ошибку в программном обеспечении , а скорее как потенциальное ограничение использования чего-то столь же гибкого, как непараметрическая c оценка максимального правдоподобия (NPMLE, также известная как оценка Тернбулла, которая survfit подходит, если вы даете ей данные с интервальной цензурой) для оценки кривой выживаемости. Версия TLDR этого ответа заключается в том, что я предлагаю вам использовать модель параметри c, такую ​​как Weibull, либо используя survival::survreg, icenReg::ic_par или icenReg::ic_bayes. Признание предвзятости: я автор icenReg.

Отчасти техническое, но очень важное замечание о NPMLE состоит в том, что он присваивает положительную вероятностную массу только интервалам Тернбулла, которые представляют собой интервалы, определяемые как имеющие левую сторону интервала, являющуюся левой стороной некоторого интервала наблюдения, а правая сторона интервала Тернбулла является ближайшей правой стороной любого интервалов наблюдения. Для иллюстрации я нанес на график ваши интервалы наблюдения и соответствующие интервалы Тернбулла.

enter image description here

Обратите внимание, что между двумя последними интервалами Тернбулла существует огромный разрыв! Это приводит к очень "скачкообразному" NPMLE, что также приводит к небольшому количеству ошибок между переходами.

После того, как я потратил долгое время на размышления над этой проблемой, я кратко подытожу, что это следствие наличия лишь умеренно информативных данных и слишком большой гибкости. В большинстве случаев анализа выживаемости разумно предположить гладкую кривую выживаемости, такую ​​как распределение параметров c. Пока распределение не является слишком строгим (читай: экспоненциальное распределение с одним параметром), это умеренное предположение о гладкости позволяет вам получить гораздо больше информации из ваших данных, не внося слишком большого смещения.

Для иллюстрации я приложил график соответствия Вейбулла + доверительные интервалы и подогнанный NPMLE рядом с ним.

enter image description here

К вашему сведению, поле, которое вы видите с NPMLE, - это не доверительный интервал, а скорее, что NPMLE только уникальна с точностью до вероятности, присвоенной каждому интервалу Тернбулла, но то, как эта вероятность распределяется в пределах интервала, не влияет на логарифмическую вероятность. Таким образом, любая кривая выживаемости, проходящая через это поле, максимизирует логарифмическую вероятность.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...