У меня большой входной файл, который выглядит следующим образом:
VARIANTS SAMPLES
chr1:10583:G:A HSB100
chr1:10583:G:A HSB105
chr1:10583:G:A HSB107
chr1:10583:G:A HSB121
chr1:10583:G:A HSB122
Мне нужно, чтобы он выглядел следующим образом:
CHROM POS ID REF ALT QUAL FILTER INFO
chr1 10583 chr1:10583:G:A G A . . HSB100
chr1 10583 chr1:10583:G:A G A . . HSB105
chr1 10583 chr1:10583:G:A G A . . HSB107
chr1 10583 chr1:10583:G:A G A . . HSB121
chr1 10583 chr1:10583:G:A G A . . HSB122
По сути, мне нужно продублировать первыйстолбец ввода (который станет столбцом ID
), а затем разделите исходный столбец на основе разделителя ':' на эти новые столбцы.Я написал скрипт на Python для этого, но он использует слишком много памяти.Столбцы QUAL
и FILTER
являются просто фиктивными столбцами, в которых все строки имеют значение .
.Как я могу получить желаемый результат, используя что-то вроде awk или sed?