Итерация по множеству подстрок в файле .txt в базе R - PullRequest
2 голосов
/ 08 февраля 2020

Мне было поручено вычислить содержание G C файла FASTA с использованием базы R (без пакетов). Моя проблема в том, что я не знаю, как прагматически выполнять итерацию последовательности, сохраняя имя последовательности, а также количество символов C и G.

Пример файла FASTA, который я могу прочитать (как файл .txt) :

>T7_promoter
ATTAGACGAG
>T3_promoter
TTTGCGCGAAATTTTTTTTT

* Здесь нет кавычек, но> обозначает отдельную последовательность.

Так что мой вывод будет концептуально похож на -

T7_promoter: 0.4 (ratio of GC from # of Gs and Cs)
T3_promoter: 0.25

Любая помощь очень ценится. В настоящее время я использую readLines() для передачи файла. Я попытался использовать unlist(strsplit()) для каждого элемента, который естественно генерирует strsplit(), чтобы попытаться сохранить каждую последовательность как элемент в списке. Затем я мог бы пройтись по каждому элементу, чтобы получить расчеты, но мои исполнения не были успешными.

1 Ответ

0 голосов
/ 10 февраля 2020

Вы можете использовать dat <- read.csv("file.txt", sep = " ", header = FALSE) для чтения строк в информационном кадре.

Затем вы можете посчитать количество G и C с помощью

dat$Gs <- lengths(regmatches(lines$V2, gregexpr("G", dat$V2)))
dat$Cs <- lengths(regmatches(lines$V2, gregexpr("C", dat$V2)))

Последней необходимой вещью будет Расчет коэффициента: dat$ratio <- dat$Gs/dat$Cs

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...