Найти столбцы во фрейме данных, наиболее похожие на один столбец - PullRequest
1 голос
/ 10 апреля 2019

У меня есть данные из файла VCF, который показывает генотип вариабельных сайтов в геноме для множества индивидуумов.Строки - каждый человек, а столбцы - сайт в геноме (пн).Генотип кодируется 0, 1 или 2 (гомозигот, гетерозигот, гомозигот):

individual 80738047 81161037 81161055 81285600 81354721 81355142
indiv_1       0       1         1        2        0      0
indiv_2       1       1         2        0        0      1
indiv_3       2       2         1        2        2      0
etc

Каждый из этих индивидуумов имеет специфический хромосомный гаплотип, также кодируемый 0, 1 или 2, который у меня естьв другом файле, так что:

individual Haplotype
indiv_1       0 
indiv_2       0 
indiv_3       2
etc

В области, которую я просматриваю, есть около 5500 сайтов с нуклеотидным вариантом, и мне нужно найти сайты, которые сильно коррелируют с гаплотипом людей,В идеале я хотел бы получить вывод, в котором наиболее упорядоченные столбцы для отдельного гаплотипа даны в упорядоченном объекте.

Хотя я могу left_join() фреймы данных по отдельным, а затем провести lm [] ивывести значение R ^ 2 для отдельных пар столбцов, я не знаю, как провести R ^ 2 между столбцом генотипа и всеми другими столбцами в матрице в одной команде.

Кроме того, яне уверен, как вывести результирующие значения в упорядочиваемый объект.Есть идеи?

ВАЖНО ПРИМЕЧАНИЕ: В кадре данных отсутствуют некоторые данные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...