Корреляция между зависимыми и независимыми переменными в ненормальном распределении - PullRequest
0 голосов
/ 22 октября 2018

Редактировать и обновить:

Я пытаюсь использовать Python или SPSS для измерения эффективности некоторых факторов по одному или нескольким показателям.Мой набор данных содержит 100 записей о пациентах, которых лечили в разное время (например, три месяца).Набор данных выглядит следующим образом:

     a1  a2  a3  b1  b2  b3  metric1 metric2 metric3
1    1.2 2.3 3.5 90  58  29  2.1     3.2     1.2  
2    3.2 3.4 1.5 58  54  39  3.1     4.2     3.2  
...
100  3.1 1.3 2.5 36  63  45  5.1     4.2     3.2  

Как вы можете видеть, фактор a (скажем, глюкоза с ненормальным распределением) и фактор b (скажем, лечение или препарат с нормальным распределением) были зарегистрированы трираз для каждого пациента.При каждом посещении пациента была также записана метрика (например, метрика здоровья).Теперь я хочу знать, как фактор b влияет на показатель в моем наборе данных во время трех визитов.Например, есть ли (со) связь между фактором b и метрикой в ​​этом наборе данных?Если да, то в какой степени это важно?

Я пробовал несколько подходов, включая одностороннюю аннову или обнаружение корреляции между средствами выборок, но это оказалось безуспешным.Я знаю, что эти виды данных должны анализироваться методом повторных измерений, но теперь, когда у меня есть несколько независимых переменных с ненормальным распределением, я немного запутался.Какой статистический метод я должен использовать?

Любая помощь приветствуется!

1 Ответ

0 голосов
/ 22 октября 2018

В настоящее время у вас есть данные в широком формате, я не делал статистику в Python, но для R вам нужен длинный формат для большинства функций.

Конвертируйте ваш фрейм данных в long.Я думаю, что вы можете сделать это с помощью pd.melt ()

df["Patient"] = df.index + 1
pd.melt(df, id_vars=["Patient"], value_vars=['b1', 'b2', 'b3'], var_name='Repeated', value_name='Glucose')

, это неправильно, потому что вам нужно сделать то же самое для ваших процедур, не зная, как это сделать дважды, вы можете сделать это, отделив DFи затем объединить его снова.

Ваш целевой фрейм данных должен выглядеть следующим образом:

Patient     Glucose  GRepeated  Treatment  TReapeatedb1   Metric MRepeated
1           1.2      a1          90        b1             3.2     metric1  
2           3.2      a2          54        b2             4.2     metric2
...
100         3.1      a3          45        b3             3.2     metric3
...