У меня загружен этот набор данных из файла .csv.
Предположим, что фрейм данных df выглядит следующим образом (упрощено для этого поста):
Run_num trial_name unit_1_act unit_2_act unit_3_act unit_4_act
0 trial1 0.0 0.000000 0.272244 0.006428
0 trial2 0.0 0.000000 0.898450 0.000729
0 trial3 0.0 0.893845 0.000000 0.000000
0 trial4 0.0 0.879367 0.000000 0.006312
1 trial1 0.0 0.000000 0.324059 0.013421
1 trial2 0.0 0.000000 0.284394 0.004305
1 trial3 0.0 0.492053 0.000000 0.000504
1 trial4 0.0 0.540394 0.000000 0.000000
2 trial1 0.0 0.000000 0.430504 0.105394
2 trial2 0.0 0.000000 0.549384 0.004934
2 trial3 0.0 0.879367 0.000000 0.000312
2 trial4 0.0 0.394034 0.000123 0.000000
Итак, для каждого «run_num» существует четыре типа проб (т.е. trial1, trial2, trial3). , trial4), и каждый из этих типов испытаний имеет последовательность значений активации нескольких единиц , то есть unit_1_act, unit_2_act и др. c.
Меня интересует соотношение единицы деятельности между типами испытаний. Я хотел бы получить все попарные корреляции между действиями модуля между trial1, trial2, trial3 и trial4, для каждого номера прогона отдельно . Так, например, я бы хотел взять последовательность значений от unit_1_act до unit_4_act пробного прогона 1 и сопоставить ее с unit_1_act через unit_4_act всех других испытаний, в том же прогоне . В конце концов, я бы взял среднее значение по всем прогонам, чтобы увидеть общую корреляционную матрицу: испытание 1 против испытания 2, испытание 1 против испытания 3 и т. Д. c.
Я немного озадачен этим. Например, функция df.corr () работает со столбцами, и данные, для которых я хочу выполнить корреляцию, находятся внутри каждой строки (т. Е. Unit _ * _ act). Я мог бы потенциально изменить форму информационного кадра, чтобы активность модуля находилась в столбце, но я не думаю, что это работает, потому что мне нужно смотреть на корреляции только в пределах определенных c прогонов? И какова наилучшая форма вывода всех этих корреляций, учитывая, что я в конечном итоге захочу получить среднее значение, стандартное отклонение и т. Д. c между сериями?
Спасибо!