У меня есть список (около 100000) строк ДНК, каждая из которых имеет длину 21. Я хочу найти общие шаблоны длиной более 4 бит среди всех строк в моем наборе данных. Любая легкая реализация Python поможет.
ATTGGCGGCGCCTA, ATTGGCTGCGCTAG, GCGCTGCAGCGCATTA и т. Д. Имеют GCGC, является общим