Мне дали последовательность генома дробовика, которую можно найти здесь:
https://www.ncbi.nlm.nih.gov/nuccore/NZ_LRPF01000001
Эта последовательность состоит из 205 000 букв. Некоторые из них являются CDS (кодирующими последовательностями), но большинство не являются кодирующими и поэтому не важны.
Например, первая область кодирования - это записи с 343 по 780, а вторая - с 937 по 1866, это, очевидно, означает, что существуют некодирующие области с 1 по 342, а затем с 781 по 936 и т. Д.
Меня попросили провести некоторый анализ этой последовательности, и я хотел бы, чтобы 1 файл фаста был сделан из кодирующей последовательности, а другой - из некодирующей последовательности.
Я знаю, как разрезать этот файл на два вектора вручную в R, но есть 187 областей кодирования, которые мне нужно будет найти и правильно вырезать вручную. Существует ли какая-либо функция или алгоритм r, которые обнаруживают области кодирования и некодирования и группируют их по отдельности?
Возможно, есть способ сделать это на веб-сайте ncbi?
РЕДАКТИРОВАТЬ: Может ли кто-нибудь хотя бы объяснить, почему я получил отрицательный голос?