Почему изменение веса обследования R R КВАДРАТ? - PullRequest
0 голосов
/ 03 марта 2019
library(survival)
library(survminer)
library(dplyr)


ovarian=ovarian
ovarian$weighting = sample(1:100,26,replace=T)

fitWEIGHT <- coxph(Surv(futime, fustat) ~ age + rx,data=ovarian,weight=weighting)
fitNOWEIGHT <- coxph(Surv(futime, fustat) ~ age + rx,data=ovarian)

В этом примере выше значение R-Squared для fitWEIGHT равно 1. Однако та же модель без поддельных весов выборки имеет R-Squared, равное меньше половины (0,5).Почему это происходит?

1 Ответ

0 голосов
/ 03 марта 2019

Взвешивание здесь фактически повторяет наблюдения.Вы рассчитываете веса с идеально распределенной случайной выборкой ovarian$weighting = sample(1:100,26,replace=T), которая распределена по вашему базовому набору данных.Поэтому повторное наблюдение каждого набора точек данных в соответствии с нормально распределенными весами, вероятно, смещает функцию, чтобы обеспечить идеальную корреляцию между вашими зависимыми и независимыми переменными.Вероятно, он не совсем идеально коррелирован, но диапазон 1: 100, вероятно, превосходит его по сравнению с числом значащих цифр по умолчанию, поэтому он округляется до 1. Если вы измените выборку на 1:10 или 40:50 или что-то ещепродолжайте толкать смещение корреляции, но уменьшайте значение r2 почти до 1 вместо значения с округлением до 1, которое вы видите сейчас при текущей стратегии взвешивания.

Дополнительное обсуждение весов для этой функции см. Ниже.Чтобы убедиться, что веса, которые вы указываете, являются типами весов, которые вы ожидаете для этого анализа.Это действительно взвешивание количества наблюдений (то есть форма перевыбора выборки наблюдения, которому вы назначаете вес).https://www.rdocumentation.org/packages/survival/versions/2.43-3/topics/coxph

Где указано:

Веса кейса Веса кейса рассматриваются как веса репликации, т. Е. Вес кейса 2 эквивалентен наличию 2 копий наблюдения этого субъекта.Когда компьютеры были намного меньше, группировка, как предметы, была обычной уловкой для сохранения памяти.Например, если задать для всех весов значение 2, получится та же оценка коэффициента, но дисперсия будет уменьшена вдвоеКогда используется приближение Эфрона для связей (по умолчанию), репликация данных не даст точно такие же коэффициенты, как у опции весов, и в этом случае взвешенное совпадение, возможно, является правильным.

Когда модель включаеткластерный термин или опция robust = TRUE, вычисленная дисперсия обрабатывает любые веса как веса выборки;установка всех весовых коэффициентов на 2 в этом случае даст ту же дисперсию, что и весовые коэффициенты 1.

...