Я написал скрипт, который вычисляет все возможные шаблоны несоответствия (в зависимости от случая), как два ниже (пожалуйста, посмотрите на команду grep), и записывает выходной файл в виде sh с миллиардом строк, как этот:
LC_ALL=C grep -ch "AAAAAAAC[A-Z][A-Z][A-Z][A-Z]CGA[A-Z][A-Z]G\|C[A-Z][A-Z]TCG[A-Z][A-Z][A-Z][A-Z]GTTTTTTT" regions_A regions_B
Следующий шаг - выполнить все эти миллиарды строк grep и записать вывод.
Чтобы запустить его как можно быстрее, я ищу только код ASCII (все мои символы - ASCII), используя LC_ALL. Более того, я разделил огромный файл grep на 16 частей и запустил их отдельно, используя 16 потоков.
Кто-нибудь знает какой-нибудь более быстрый способ получить мои шаблоны?
Любая помощь будет оценена.
Заранее спасибо!