Мне нужно написать код о ДНК.
Мне нужно найти между строкой из нескольких букв последовательность из 6 букв, которые должны соответствовать шаблону.
Например: в индексе 0 это может быть буква A или T, то есть только эти буквы. Что я использую для этого? Какой тип функции в регулярном выражении?
the_str = "AAATAAAATAAATAATAAAGAGCCAGAGGCCCTTGAAGAATGGATGGAAT\ TTGGACTTTAGCGGGGCTGGGGGACCCCGGAAATGGACGAGAAGCAGAAC\ CGAGGCCCTTTAGGGCTCAGCGGAGGCCTGCCTGTCTCTCTAAGGTCCCT\ CTTGGAGCAACTGAAGAAACTCCAGGCCATTGTGGTGCAGTCCACCAGCA\ AGTCAGCCCAGACAGGCACCTGTGTCGCAGTGAGTCCTGGTGCCCCCAGG\ CAAGCCGGGGACCTAGGCTTCTGTAGAGGGGCCCATAGGGAGGTGACAAT\ GAGTCCAAGCTCTCCTTGTGCCCCAGCTCAAGTATGATCCAGTCTGGTCT\ TTGGGGCCTCAGTTTCCCTGCCTGTGGGATGGAGATGCTTGCAGGGGAGG\ GGAGGGAGGGGGTGACTCTGCCGCTGTCTCCACCAGGTCCTGTTGCTGTC"
Звучит так, что, может быть, вам нужно что-то подобное?
(A | T) AGCGG
Это будет соответствовать AAGCGG или TAGCGG.
Если четвертый символ можетбыть любым из C, A, G, тогда это может выглядеть так:
(A | T) AG (C | A | G) GG