У меня есть данные из файла VCF, который показывает генотип вариабельных сайтов в геноме для множества индивидуумов.Строки - каждый человек, а столбцы - сайт в геноме (пн).Генотип кодируется 0, 1 или 2 (гомозигот, гетерозигот, гомозигот):
individual 80738047 81161037 81161055 81285600 81354721 81355142
indiv_1 0 1 1 2 0 0
indiv_2 1 1 2 0 0 1
indiv_3 2 2 1 2 2 0
etc
Каждый из этих индивидуумов имеет специфический хромосомный гаплотип, также кодируемый 0, 1 или 2, который у меня естьв другом файле, так что:
individual Haplotype
indiv_1 0
indiv_2 0
indiv_3 2
etc
В области, которую я просматриваю, есть около 5500 сайтов с нуклеотидным вариантом, и мне нужно найти сайты, которые сильно коррелируют с гаплотипом людей,В идеале я хотел бы получить вывод, в котором наиболее упорядоченные столбцы для отдельного гаплотипа даны в упорядоченном объекте.
Хотя я могу left_join()
фреймы данных по отдельным, а затем провести lm [] ивывести значение R ^ 2 для отдельных пар столбцов, я не знаю, как провести R ^ 2 между столбцом генотипа и всеми другими столбцами в матрице в одной команде.
Кроме того, яне уверен, как вывести результирующие значения в упорядочиваемый объект.Есть идеи?
ВАЖНО ПРИМЕЧАНИЕ: В кадре данных отсутствуют некоторые данные.