unix - максимальная (длина) каждого столбца в файле - PullRequest
4 голосов
/ 25 декабря 2011

Имеется файл с такими данными (например, файл stores.dat)

sid|storeNo|latitude|longitude
2tt|1|-28.0372000t0|153.42921670
9|2t|-33tt.85t09t0000|15t1.03274200

Желаемый вывод:

sid : 3
storeNo : 2
latitude : 16
longitude : 13

Каков синтаксис для получения максимальной длины значенийпод каждым столбцом?

Я пробовал это, но это не работает:

nawk 'BEGIN { FS = "|" }
{
for(n = 1; n <= NF; n++) {
if (length($n) > max)
max = length($n)
maxlen[$n] = max
}
}
END {
for (i in maxlen) print "col " i ": " maxlen[i]
} ' stores.dat

ОБНОВЛЕНИЕ (благодаря ответу Мэта - я остановился на этом):

awk -F"|" '  NR==1{
    for(n = 1; n <= NF; n++) {
       colname[n]=$n
    }
}
NR>1{
    for(n = 1; n <= NF; n++) {
        if (length($n)>maxlen[n])
            maxlen[n]=length($n)
    }
}
END {
        for (i in colname) {
                print colname[i], ":", maxlen[i]+0;
        }
} ' filename

Ответы [ 2 ]

6 голосов
/ 25 декабря 2011

С вашим скриптом есть несколько проблем - max распределяется между столбцами, и вы вообще не имеете дело со строкой заголовка.Попробуйте следующее:

$ cat t.awk 
#!/bin/awk -f
NR==1{
    for(n = 1; n <= NF; n++) {
       colname[n]=$n
    }
}
NR>1{
    for(n = 1; n <= NF; n++) {
        if (length($n)>maxlen[n])
            maxlen[n]=length($n)
    }
}
END {
        for (i in maxlen) {
                print colname[i], ":", maxlen[i];
        }
}
$ awk -F'|' -f t.awk stores.dat

$n относится к содержимому n-го столбца.n - номер столбца (в первом и втором цикле).Последний цикл просто показывает способ перебора массива в awk.

0 голосов
/ 21 августа 2013

Я полагаю на это, используя чистый подход Bash:

#!/usr/bin/env bash

dat=./stores.dat
del='|'
TOKENS=$(head -1 "${dat}" | tr $del ' ')
declare -a col=( $TOKENS )
declare -a max

skip=1
while IFS=$del read $TOKENS; do
    if [ $skip -eq 1 ]; then
        skip=0
        continue
    fi
    idx=0
    for tok in ${TOKENS}; do
        tokref=${!tok}
        printf "%-10s = %-16s[%2d] " "$tok" "${tokref}" "${#tokref}"
        echo "--> max=${max[$idx]} tokref=${#tokref}"
        #This works  : c=$a>$b?$a:$b
        #This doesn't: max[$idx]=${max[$idx]}>${#tokref}?${max[$idx]}:${#tokref}
        max[$idx]=$((${max[$idx]:=0}>${#tokref}?${max[$idx]}:${#tokref}))
        let idx++
    done
    printf "\n"
done < ${dat}

for ((idx=0; idx<${#col[@]}; idx++)); do
    printf "%-10s : %d\n" "${col[$idx]}" "${max[$idx]}"
done

Вывод выглядит следующим образом:

sid        = 2tt             [ 3] --> max=0 tokref=3
storeNo    = 1               [ 1] --> max=0 tokref=1
latitude   = -28.0372000t0   [13] --> max=0 tokref=13
longitude  = 153.42921670    [12] --> max=0 tokref=12

sid        = 9               [ 1] --> max=3 tokref=1
storeNo    = 2t              [ 2] --> max=1 tokref=2
latitude   = -33tt.85t09t0000[16] --> max=13 tokref=16
longitude  = 15t1.03274200   [13] --> max=12 tokref=13

sid        : 3
storeNo    : 2
latitude   : 16
longitude  : 13

Я добавил это решение, потому что мне понравилось испытание и у меня было несколько свободных минут.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...