Ошибка при преобразовании файлов .gprobs из Impute2 в формат PLINK - PullRequest
0 голосов
/ 15 ноября 2018

У меня есть набор файлов .gprobs, которые мне нужно импортировать в Plink.Тем не менее, я продолжаю получать ту же ошибку - проблему в определенной строке, даже после того, как я удалил эту строку и строки вокруг нее.

Данные: я конкатенировал все 22 файла хромосом .gprobs.Для этого я заменил «---» в начале отдельных файлов .gprobs на соответствующий номер хромосомы (поэтому теперь каждая строка начинается с CHR SNP BP A1 A2 ...).Я также удалил SNP, которые не были хорошо вменены (INFO баллы ниже 0,7)

Код:

plink --gen data_chrALL.gprobs_chrcol_below0.7inforemoved --sample data_chr1.sample --out data_chrALL.gprobs_plink

Сообщение об ошибке:

--data: 13404k variants converted.Error: Line 13404781 of .gen file has fewer tokens than expected.

Как я уже говорилвыше, я удалил эту конкретную строку и повторно ее, и получил то же самое точное сообщение об ошибке.Я попытался удалить строки выше и ниже (в случае, если нумерация была отключена заголовком или чем-то?), Но опять та же самая точная ошибка.

Любые мысли или предложения будут с благодарностью приняты !!!Я не уверен, что это лучшее место для публикации, но мне отчаянно нужна помощь.

1 Ответ

0 голосов
/ 12 марта 2019

Plink пытается сказать вам, что ожидает определенное количество элементов в каждой строке (3N + 5 полей, где N - количество выборок), а в некоторых строках он их не видит. Итак,

( 1 ) Прежде всего, я бы попытался сравнить строки, вызывающие ошибки, с теми, которые не видят, что количество токенов / столбцов на самом деле одинаково, что оно корректно и что нет лишних пробелов или специальных символов, которые могут вызвать экранирование или неправильное прочтение строки. Также я бы проверил, какие варианты вызывают проблемы: возможно, они многоядерные или независимые, или что-то еще, и Плинк не знает, как с ними бороться. Или, может быть, для этого варианта вообще нет малых аллельных гомозигот, и это выражено в неправильной манере.

( 2 ) Я бы проверил спецификации входных файлов, как .gen, так и .sample, чтобы убедиться, что они правильные. Поскольку файлы происходят из Impute2, могут быть некоторые тонкие различия.

( 3 ) Я бы также обновил версию Plink. Из кода кажется, что вы используете либо версию 1.07, либо 1.09. 1.x версии не могут представлять вероятности и будут делать жесткие вызовы, поэтому вы потеряете много информации из-за этого Plink 2.0 может использовать вероятности, а также должен иметь лучшую поддержку для них. Вы по-прежнему сможете использовать жесткие вызовы, если хотите.

...