Я пытаюсь назначить членство в подгруппе в 4 независимых наборах данных по экспрессии генов рака, поочередно тренируясь на каждом наборе данных, а затем проверяя назначение (на основе метагена) в остальных трех плюс тестирование на самой обучающей когорте.
Это создает членство в группах для каждой выборки, для каждого сравнения, и вы можете получить представление о стабильности выборки (каждый раз данный кластер выборки находится в одном и том же кластере?) Проблема в том, что метки групп могут отличаться от сравнения к сравнению поэтому сравнение с групповыми метками не работает.
Чтобы оценить стабильность выборки, я думаю, что для каждого образца мне потребуется каталогизировать других членов подгруппы, но я не смог осмыслить, насколько точно я должен это сделать.
Для чего стоит, код ниже должен продемонстрировать проблему немного яснее, чем я описал выше.
Спасибо за чтение, и любая помощь приветствуется!
## Here we have 12 samples (A-L), all of which have congruent assignments, except sample K.
## From the two group assignments, we can see that group 1 has become group 4 in class2,
## group 2 has become group 1 etc. etc.
## How do we assess cluster membership with these differing subgroup labels?
class1<-c(1,2,3,4,1,2,3,4,1,2,3,4)
class2<-c(4,1,2,3,4,1,2,3,4,1,3,3)
names(class1)<-LETTERS[1:12]
names(class2)<-LETTERS[1:12]