Я бы хотел получить подстроки длинных последовательностей ДНК
Например, дано:
1/ATXGAAATTXXGGAAGGGGTGG
2/AATXGAAGGAAGGAAGGGGATATTX
3/AAAAAATTXXGGAAGGGGXTTTA
4/AAAATTXXATAXXGGAAGGGGXTXG
5/ATTATTGTTXAXTATTT
вывод должен быть:
1/TXG - TTXX
2/TXG -
3/ - TTXX
4/TTXX - TXG
5/ -
Я попробовал следующий шаблон регулярных выражений:
(TXG|TTXX)
и это работает, и результаты помещаются в список, но я не знаю, как получить порядок каждого результата, который появился в исходных последовательностях. То есть,
* появляются ли TTXX
и TXG
соответственно первый и второй, как в последовательности 4, но второй и первый, как в последовательности 1; а во 2-м и 3-м результатах это сложнее, потому что вызов функции match-xx не предлагает индекс подстроки, взятой из рассматриваемой последовательности. Спасибо за ваши идеи.