Есть ли более быстрый способ поиска миллиардов несоответствующих шаблонов в более чем одном файле? - PullRequest
0 голосов
/ 10 мая 2018

Я написал скрипт, который вычисляет все возможные шаблоны несоответствия (в зависимости от случая), как два ниже (пожалуйста, посмотрите на команду grep), и записывает выходной файл в виде sh с миллиардом строк, как этот:

LC_ALL=C grep -ch "AAAAAAAC[A-Z][A-Z][A-Z][A-Z]CGA[A-Z][A-Z]G\|C[A-Z][A-Z]TCG[A-Z][A-Z][A-Z][A-Z]GTTTTTTT" regions_A regions_B

Следующий шаг - выполнить все эти миллиарды строк grep и записать вывод. Чтобы запустить его как можно быстрее, я ищу только код ASCII (все мои символы - ASCII), используя LC_ALL. Более того, я разделил огромный файл grep на 16 частей и запустил их отдельно, используя 16 потоков.

Кто-нибудь знает какой-нибудь более быстрый способ получить мои шаблоны?

Любая помощь будет оценена.

Заранее спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...