Как вырезать из файла fasta нуклеотидов в кодирующую и некодирующую область в r - PullRequest
0 голосов
/ 28 апреля 2018

Мне дали последовательность генома дробовика, которую можно найти здесь:

https://www.ncbi.nlm.nih.gov/nuccore/NZ_LRPF01000001

Эта последовательность состоит из 205 000 букв. Некоторые из них являются CDS (кодирующими последовательностями), но большинство не являются кодирующими и поэтому не важны.

Например, первая область кодирования - это записи с 343 по 780, а вторая - с 937 по 1866, это, очевидно, означает, что существуют некодирующие области с 1 по 342, а затем с 781 по 936 и т. Д.

Меня попросили провести некоторый анализ этой последовательности, и я хотел бы, чтобы 1 файл фаста был сделан из кодирующей последовательности, а другой - из некодирующей последовательности.

Я знаю, как разрезать этот файл на два вектора вручную в R, но есть 187 областей кодирования, которые мне нужно будет найти и правильно вырезать вручную. Существует ли какая-либо функция или алгоритм r, которые обнаруживают области кодирования и некодирования и группируют их по отдельности?

Возможно, есть способ сделать это на веб-сайте ncbi?

РЕДАКТИРОВАТЬ: Может ли кто-нибудь хотя бы объяснить, почему я получил отрицательный голос?

1 Ответ

0 голосов
/ 29 апреля 2018

возможно, этот пост будет вам полезен Извлечение последних n символов из строки в R .

Думая об этом, я буду использовать R (хотя я уверен, что другие люди могут предложить более оптимизированные альтернативы): Сначала создайте два фрейма данных с начальными и конечными координатами всех элементов экзонов, а другой - с интронами, а затем примените функцию stri_sub или любую из других, которые вы можете увидеть в посте, после корректировки кода. И тогда только цикл for может выполнить итерацию по позициям в кадре данных, чтобы не делать это вручную.

Или, если эта последовательность доступна для загрузки с веб-сайтов Biomart UCSC или ENSEMBL, другой вариант будет: О. Из UCSC используйте браузер таблиц, чтобы сначала загрузить файл постели с координатами интронов, экзонов и / или UTR, а затем использовать функцию getfasta для bedtools, чтобы получить последовательность fastta. б) В ENSEMBLE biomart вы можете напрямую получить экзоны и UTR-последовательности.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...