У меня есть данные, которые выглядят так:
SNP aa_controls aA_controls AA_controls aa_cases aA_cases AA_cases
rs2378938 3412 16822 21987 2635 13197 16573
rs6712069 87 3354 38780 58 2659 29688
rs62445806 2306 15116 24799 1781 11497 19127
Это продолжается для ~ 14k SNPS
Я хочу проверить, связан ли один или оба из двух аллелей с более высоким рискомболезнь для каждого SNP. Итак, логично, я подумал сначала создать таблицу сопряженности для каждого SNP, которая будет выглядеть следующим образом:
aa Aa AA
case # # #
control # # #
Так что я могу выполнить тест хи-квадрат для каждого SNP. Однако у меня возникают проблемы с переконфигурированием данных, чтобы можно было составить таблицу непредвиденных обстоятельств. а затем, после этого, примените хи-квадрат к каждой таблице и сохраните каждое значение p в строке или векторе