Я очень плохо знаком с обработкой данных. И теперь у меня есть эта проблема под рукой:
Так что в основном я использовал таблицы биохимических измерений (все численные) пациентов для выполнения кластерного анализа, и таким образом я отсортировал их по 5 кластерам.
Тогда у меня также есть свои клинические данные / особенности, теперь я хочу спросить, значительно ли отличаются эти клинические признаки (сочетание числовых и категориальных признаков) от одного кластера к другому. Так как я могу go об этом? Какой тест я должен выполнить? Есть ли хорошая библиотека, на которую я должен смотреть?
Чтобы дать вам представление о «клинических данных»:
ClusterAssigned PatientID age sex stage FISH IGHV IgG ...
1 S134567 50 m 4 11q mutated scig
1 S234667 80 m 2 13q mutated 6.5
1 S135677 55 f 4 11q na scig
1 S356576 94 f 2 13q,t12 unmutated 5
1 S187978 59 m 4 11q mutated scig
4 S278967 80 f 2 17q unmutated 6.5
4 S123467 75 f 4 na unmutated 9.1
4 S234577 62 m 2 t12 mutated 9
.....
Итак, вы видите, что назначенный кластер основан на моем кластерном анализе , FI SH, IGHV, IgG являются категориальными, и вы можете видеть, что иногда есть значения n, а иногда один человек может иметь несколько записей "13q, t12".
В дисконтированном виде я, возможно, просто могу взять пациенты кластера 1 и 4 выбрасывают всех на и спрашивают, есть ли разница в их возрасте, поле, FI SH, IGHV ... Тем не менее, какой метод я могу использовать здесь, чтобы выполнить такой тест в одном * 1016? *