Да, 300 ДАЛЕКО СЛИШКОМ МНОГО, учитывая, что это человеческий геном, и вы, по сути, просто ищете конкретный 8-член. В геноме имеется 65 536 возможных 8-членных и 3 000 000 000 уникальных оснований (при условии, что вы смотрите на весь геном, а не только на генные или кодирующие области). Вы найдете G / C, содержащий последовательности 3 000 000 000/65 536 * 2 ^ 8 = ~ 12 000 000 раз (и, вероятно, намного больше, поскольку геном полон островков CpG по сравнению с другими вещами). Почему выбирают только 300?
Вы не хотите использовать регулярные выражения для этой задачи. Просто начните с хромосомы 1, найдите первый CG или GC и продолжайте, пока не получите свой первый не-G-или-C. Затем возьмите эту последовательность, ее контекст и сохраните ее (в БД). Промыть и повторить.
Для этого проекта Clustal может быть излишним - но я не знаю ваших целей, поэтому не могу быть уверен. Если вас интересует только регион GC, то вы можете сделать несколько простых кластеров, например:
- Создайте запись в базе данных для каждого главного счетчика (2 ^ 8 = 256 всего).
- Возьмите каждый GC-регион и пройдите по нему, чтобы увидеть, в каких 8-членах он содержится.
- Пометить каждый GC-регион последовательностями, которые он содержит.
Теперь для каждого 8-го числа у вас есть тысячи последовательностей, которые его содержат. Я оставлю анализ данных на ваше усмотрение.