Я работаю с данными протеома и хотел бы показать экспрессию пептида в соответствии с фактической последовательностью белка.В настоящее время они упорядочены в соответствии с их использованием в количественном выражении (= случайный).Я полагаю, вы можете сделать это с помощью регулярных выражений / stringr & rebus (желательно), но я не могу понять, как.
Вот пример данных, большое спасибо за вашу помощь!
peptides <- data.frame(peptide = c(1,2,3,4),
sequence = c("PRDPDPASRTH", "MTLGRRLACLF", "RRARPHAWP", "APNFVMSAAH"),
log2quant = c(21, 12, 17, 18))
protein_sequence <- c("MTLGRRLACLFLACVLPALLLGGTALASEIVGGRRARPHAWPFMVSLQLRGGHFCGATLIAPNFVMSAAHCVANVNVRAVRVVLGAHNLSRREPTRQVFAVQRIFENGYDPVNLLNDIVILQLNGSATINANVQVAQLPAQGRRLGNGVQCLAMGWGLLGRNRGIASVLQELNVTVVTSLCRRSNVCTLVRGRQAGVCFGDSGSPLVCNGLIHGIASFVRGGCASGLYPDAFAPVAQFVNWIDSIIQRSEDNPCPHPRDPDPASRTH")
expected_result <- data.frame(peptide = c(1,2,3,4),
sequence = c("PRDPDPASRTH", "MTLGRRLACLF", "RRARPHAWP", "APNFVMSAAH"),
log2quant = c(21, 12, 17, 18),
order = c(4, 1, 2, 3))
ПоследовательностьЯ копирую / вставляю из Uniprot (это белок ELANE).Остальные данные получены из результатов MassSpec.Было бы здорово найти решение для этого, большое спасибо!