R: Как переставить повторяющиеся значения в столбце, чтобы каждое значение отображалось только один раз - PullRequest
0 голосов
/ 27 апреля 2020

Я новичок в R и использую его для интерпретации файлов VCF (вариант формата вызова). Я oop через различные файлы VCF в R и извлекать частоты аллелей, представляющих интерес в каждой позиции.

Вывод, который у меня сейчас есть, находится по ссылке ниже. Я добавил ссылку на изображение, потому что я не смог правильно отформатировать таблицы.

TABLES

В GenomePositions каждый повторяющийся блок 831001-18600001 начинается с один файл VCF (всего 3 файла VCF). Поскольку существует 6 позиций генома, я хочу добавить код, который бы перестраивал эти данные так, чтобы в каждой позиции генома было только 6 строк. В этом случае частоты будут перечислены справа как их собственные столбцы с заголовками, описывающими, из какого VCF-файла получены частоты (в данном случае 1-3).

Например:

enter image description here

Положение генома FreqV1 FreqV2 FreqV3

831001 0,5 1 0,5

1662001 0,5 1 0,5

et c. для каждой позиции генома

Это достаточно просто сделать с меньшими выходными данными, как показано выше, но я хочу настроить его так, чтобы он работал для 1000 позиций генома и для 100 файлов VCF. Я пытался поиграть с тидыром и посмотреть на другие вопросы, но пока не помог. Если у кого-то есть какие-либо предложения относительно каких-либо пакетов, которые могут помочь или места, чтобы посмотреть, это будет с благодарностью! Я новичок в StackOverflow, поэтому, если есть какие-либо уточнения или способы улучшить мой вопрос, пожалуйста, дайте мне знать! Я не опубликовал код r, который привел к созданию этого вывода, потому что он очень длинный, и я пытаюсь найти способ добавить к существующему выводу вместо настройки кода для получения желаемого результата.

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...