Question

Например ... если бы у меня был такой файл:

A   16  chr11   36595888
A   0   chr1    155517200
B   16  chr1    43227072
C   0   chr20   55648508
D   0   chr2    52375454
D   16  chr2    73574214
D   0   chr3    93549403
E   16  chr3    3315671

Мне нужно напечатать только те строки, которые имеют уникальный первый столбец:

B   16  chr1    43227072
C   0   chr20   55648508
E   16  chr3    3315671

Это похожедо awk '!_[$1]++', но я хочу удалить все строки, которые имеют неуникальное поле кулак.

Решения Bash и Python желательно.

theamk · Answer 1 · 29 сентября 2011

в bash, при условии, что первый столбец исправлен с помощью (3):

sort input-file.txt | uniq -u -w 3

'- u' печатает только уникальные строки, а '-w 3' сравнивает не более первых 3 символов.

Spencer Rathbun · Answer 2 · 29 сентября 2011

Как насчет этого:

#!/usr/bin/env python
from collections import defaultdict
data = defaultdict(list)
with open('file', 'rb') as f:
    for line in sorted(f.readlines()):
        data[line[0]].append(line)
for key in sorted(data.iterkeys()):
    if len(data[key]) == 1:
        print data[key]

potong · Answer 3 · 01 октября 2011

седан один лайнер решение:

sed ':a;$bb;N;/^\(.\).*\n\1[^\n]*$/ba;:b;s/^\(.\).*\n\1[^\n]*\n*//;ta;/./P;D' file

glenn jackman · Answer 4 · 29 сентября 2011

awk '
  {count[$1]++; line[$1]=$0}
  END {for (val in count) if (count[val]==1) print line[val]}
' filename

Это может изменить порядок строк.Если это проблема, попробуйте этот двухпроходный подход:

awk '
  NR==FNR {count[$1]++; next}
  count[$1] == 1 {print}
' filename filename

Laurence Gonsalves · Answer 5 · 29 сентября 2011

import sys
from collections import OrderedDict
lines = OrderedDict()
for line in sys.stdin:
    field0 = line.strip().split('\t')[0]
    lines[field0] = None if field0 in lines else line
for line in lines.values():
    if line is not None:
        sys.stdout.write(line)

Если вас не волнует сохранение порядка, вы можете использовать простой старый дикт ({}) вместо OrderedDict.

Эта реализация не заботится, если дублирующиеся полясмежны.

theamk · Answer 6 · 29 сентября 2011

в Python, гораздо проще для чтения и настройки:

d = dict()
for line in open('input-file.txt', 'r'):
  key = line.split(' ', 1)[0]
  d.setdefault(key, list()).append(line.rstrip())

for k, v in sorted(d.items()):
  if len(v) == 1:
     print v[0]

Как печатать только строки с уникальными полями?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как печатать только строки с уникальными полями?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы