В UNIX есть способ сортировки столбцов 4 и 5, удаления дубликатов, но при этом подсчет итогов для каждого - PullRequest
0 голосов
/ 01 февраля 2019

Как видно из заголовка, я могу отфильтровать результаты с помощью этой команды: sort -t "," -k5 -nr data.csv |cut -d "," -f4,5

Я получаю результаты вроде:

DISEASES OF HEART,5351
DISEASES OF HEART,4495
MALIGNANT NEOPLASMS,3438
MALIGNANT NEOPLASMS,3408
MALIGNANT NEOPLASMS,1540
INFLUENZA AND PNEUMONIA,707
INFLUENZA AND PNEUMONIA,614
CHRONIC LOWER RESPIRATORY DISEASES,502
CHRONIC LOWER RESPIRATORY DISEASES,388
CEREBROVASCULAR DISEASE,382
HUMAN IMMUNODEFICIENCY VIRUS DISEASE,297
CEREBROVASCULAR DISEASE,276

Но я пытаюсь объединить причины смерти, добавляя при этом их количество смертей.

Я новичок, поэтому я стараюсь придерживаться основных команд сортировки.

1 Ответ

0 голосов
/ 05 февраля 2019

Это можно сделать с помощью awk.Запустите команду ниже на вашем выходе.Здесь result.txt содержит отсортированный и отфильтрованный результат.Вы также можете запустить эту команду с pipe.

awk -F, '{A[$1]+=$2} END {for (i in A) print i","A[i]}' result.txt
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...