Я пытаюсь найти хороший набор переменных для классификации, используя большой набор данных выражений (все категориальные переменные вдоль столбцов), чтобы предсказать двоичный результат. Каждый субъект измеряется в несколько, но не во все моменты времени (T1-T7 в исследовании). У каждого субъекта есть определенный идентификатор. Для этого я решил использовать MXM::MMPC.timeclass()
. Тем не менее, он производит отрицательные значения р. Насколько я понимаю, p-значения ... вероятности по определению не могут быть отрицательными. Они действительно не могут, и это очевидно.
Я попытался MMPC.timeclass()
и провел обширные литературные поиски, чтобы найти другой метод, который мог бы подойти, но пока ничего не найдено.
set.seed(5)
## assume these are longitudinal data, each column is a variable (or feature)
dataset <- matrix( rnorm(400 * 100), ncol = 100 )
id <- rep(1:80, each = 5) ## 80 subjects
reps <- rep( seq(4, 12, by = 2), 80)
## 5 time points for each subject
## dataset contains are the regression coefficients of each subject's values on the
## reps (which is assumed to be time in this example)
target <- rep(0:1, each = 200)
a <- MMPC.timeclass(target, reps, id, dataset)
a@pvalues %>% summary()
Min. 1st Qu. Median Mean 3rd Qu. Max.
-4.01762 -1.39835 -0.68720 -0.98512 -0.37326 -0.01365
Ожидаемые результаты должны включать p-значения (в диапазоне 0-1) или, что еще лучше, ранжирование определенного типа для каждой переменной из процедуры скрининга. Я использовал VariableScreening::ScreenLD()
раньше, но это категорический результат, поэтому он не подходит для данных.