PLINK и удаление частей данных - PullRequest
0 голосов
/ 28 июля 2010

У меня есть файл SNP, который был обработан с использованием PLINK . У меня есть список из нескольких тысяч SNP. В файле им назначен один из NA, 0, 1 или 2. Я хочу удалить список SNP, которые имеют NA, то есть они мономорфны. Проблема заключается в том, что файл перечисляет все несколько тысяч SNP по порядку, а затем перечисляет их соответствующие значения в одной строке, разделенной пробелами. Очень трудно понять, какие значения соответствуют каким SNP на основании ручной проверки.

Существует ли простой способ удаления мономорфных SNP из файла с помощью PLINK? Или это лучше всего сделать с помощью Python?

Ответы [ 2 ]

1 голос
/ 23 мая 2014

Эмм, не будет ли NA означать, что в некоторых snps отсутствуют значения данных? Чтобы удалить их, вы должны использовать команду --geno. Цитировать документы :

- geno отфильтровывает все варианты, у которых пропущенные тарифы на вызовы превышают заданное значение (по умолчанию 0,1) для удаления.

Команда --maf, однако, удаляет мономорфные snps. Установка --maf немного выше 0 может быть разумной, потому что, если аллель обнаружен с очень низкой частотой, это может представлять ошибку генотипирования.

В общем, вы можете захотеть вставить контроль качества следующего типа в вашу команду plink:

--geno 0.03 --hwe 0.00001 --maf 0.00001

(hwe - это просто регулярное равновесие Харди-Вайнберга).

1 голос
/ 02 сентября 2012

Если вы еще этого не обнаружили, вы можете удалить мономорфные SNP, используя PLINK --maf.

Удалить мономорфные SNP из набора данных (с MAF = 0.0) http://www.shapeit.fr/pages/pedmap.html

...