Это похоже на то, что может быть возможно в одной длинной команде awk.Но я не знаю достаточно хорошо, чтобы сделать это.
Я хочу определить общее количество символов A
, T
, G
и C
в каждой 4-й строке ввода,начиная со строки 2. Если любой номер строки, кратный 4, имеет количество символов в диапазоне, скажем, от 1000 до 3000, то я хочу, чтобы он напечатал эту строку, а также строку выше и две строки ниже.
Я могу разбить его на части и разбить на части в отдельных строках кода.Но когда у меня миллионы строк, вычисление занимает слишком много времени.Мне нужна одна мощная команда awk здесь.В awk должен быть кто-то достаточно блестящий, чтобы решить этот вопрос!
Очень крошечный пример с диапазоном 10 < character count < 40
:
Ввод:
@d0aec33d-ba
TCAGTATGCTTCGTGCAATCAAG
+
-0(''$&"('
@ee487ad3-b71
ACAATGTG
+
""%#0&'+367<677
Вывод:
@d0aec33d-ba
TCAGTATGCTTCGTGCAATCAAG
+
-0(''$&"('