Кто-нибудь знает, как выбрать до N (случайных или N первых) строк для каждого уникального значения столбца, используя команду unix (или sed, awk и т. Д.)? Пожалуйста, не используйте SQL, так как я не знаю этого языка.
Большое спасибо за вашу помощь!
Carole
вот пример входного файла:
5 00059.padded.fasta 2986
5 00059.padded.fasta 2986
5 00059.padded.fasta 2986
5 00059.padded.fasta 2986
5 00059.padded.fasta 2986
5 00059.padded.fasta 2986
6 00108.padded.fasta 2348
3 00017.padded.fasta 1769
3 00017.padded.fasta 1769
3 00017.padded.fasta 1769
3 00017.padded.fasta 1769
Я хотел бы извлечь до N строк (скажем, до 2 для этого примера) для каждого заданного уникального значения в столбце 2:
ожидаемый результат:
5 00059.padded.fasta 2986
5 00059.padded.fasta 2986
6 00108.padded.fasta 2348
3 00017.padded.fasta 1769
3 00017.padded.fasta 1769
Здесь я выбрал первые две строки, но это может быть случайно выбранная пара строк для каждого уникального значения в столбце 2.