Упорядочение матрицы генотипа в файле vcf - PullRequest
0 голосов
/ 19 марта 2020

Я пытаюсь получить данные генотипа из файла .vcf. Попытка прочитать файл напрямую - беспорядок; поэтому я использую python. Для начала я импортирую модуль аллеля и затем загружаю данные в переменную с помощью callset=allel.read_vcf('file address').

Затем я просматриваю свои варианты, используя callset[keys]. Это дает ['samples', 'calldata/GT', 'variants/ALT', 'variants/CHROM', 'variants/FILTER_PASS', 'variants/ID', 'variants/POS', 'variants/QUAL', 'variants/REF']

Данные генотипа, я уверен, находятся в calldata / GT. Это матрица, в которой каждая строка представляет вариант сайта, а каждый столбец представляет тему. Моя проблема: я не знаю, в каком порядке находятся столбцы. Первый столбец для субъекта 1 или кого-то еще?

При вводе образцов я получаю вектор такой же длины, что и число предметов: ['SAMPLE_(number)', SAMPLE_(number)',...

Я подозреваю, что столбцы в calldata / GT расположены в порядке, указанном образцами. Но я не уверен. Мне было интересно, есть ли способ проверить наверняка.

Спасибо

...