Мне было поручено вычислить содержание G C файла FASTA с использованием базы R (без пакетов). Моя проблема в том, что я не знаю, как прагматически выполнять итерацию последовательности, сохраняя имя последовательности, а также количество символов C и G.
Пример файла FASTA, который я могу прочитать (как файл .txt) :
>T7_promoter
ATTAGACGAG
>T3_promoter
TTTGCGCGAAATTTTTTTTT
* Здесь нет кавычек, но> обозначает отдельную последовательность.
Так что мой вывод будет концептуально похож на -
T7_promoter: 0.4 (ratio of GC from # of Gs and Cs)
T3_promoter: 0.25
Любая помощь очень ценится. В настоящее время я использую readLines()
для передачи файла. Я попытался использовать unlist(strsplit())
для каждого элемента, который естественно генерирует strsplit()
, чтобы попытаться сохранить каждую последовательность как элемент в списке. Затем я мог бы пройтись по каждому элементу, чтобы получить расчеты, но мои исполнения не были успешными.