Question

Я пытаюсь найти все места, где мои данные имеют повторяющуюся строку, и удалить повторяющуюся строку.Кроме того, я ищу, где 2-й столбец имеет значение 90, и заменим следующий 2-й столбец определенным числом, которое я обозначу.

Мои данные выглядят так:

 #      Type    Response        Acc     RT      Offset    
   1      70  0    0   0.0000 57850
   2      31  0    0   0.0000 59371
   3      41  0    0   0.0000 60909
   4      70  0    0   0.0000 61478
   5      31  0    0   0.0000 62999 
   6      41  0    0   0.0000 64537
   7      41  0    0   0.0000 64537
   8      70  0    0   0.0000 65106
   9      11  0    0   0.0000 66627
  10      21  0    0   0.0000 68165
  11      90  0    0   0.0000 68700
  12      31  0    0   0.0000 70221

Я хочумои данные будут выглядеть так:

 #      Type    Response        Acc     RT      Offset
   1      70  0    0   0.0000 57850
   2      31  0    0   0.0000 59371
   3      41  0    0   0.0000 60909
   4      70  0    0   0.0000 61478
   5      31  0    0   0.0000 62999
   6      41  0    0   0.0000 64537
   8      70  0    0   0.0000 65106
   9      11  0    0   0.0000 66627
  10      21  0    0   0.0000 68165
  11      90  0    0   0.0000 68700
  12       5  0    0   0.0000 70221

Мой код:

 BEGIN {
priorline = "";
ERROROFFSET = 50;
ERRORVALUE[10] = 1;
ERRORVALUE[11] = 2;
ERRORVALUE[12] = 3;
ERRORVALUE[30] = 4;
ERRORVALUE[31] = 5;
ERRORVALUE[32] = 6;

ORS = "\n";
}

NR == 1 {
print;
getline;
priorline = $0;
}

NF == 6 {

brandnewline = $0
mytype = $2
$0 = priorline
priorField2 = $2;   

if (mytype !~ priorField2) {
print;
priorline = brandnewline;
}

if (priorField2 == "90") {
    mytype = ERRORVALUE[mytype];
    }
}

END {print brandnewline}


##Here the parameters of the brandnewline is set to the current line and then the
##proirline is set to the line on which we just worked on and the brandnewline is
##set to be the next new line we are working on. (i.e line 1 = brandnewline, now
##we set priorline = brandnewline, thus priorline is line 1 and brandnewline takes
##on line 2) Next, the same parameters were set with column 2, mytype being the 
##current column 2 value and priorField2 being the same value as mytype moves to
##the next column 2 value.  Finally, we wrote an if statement where, if the value
##in column 2 of the current line !~ (does not equal) value of column two of the
##previous line, then the current line will be print otherwise it will just be
##skipped over.  The second if statement recognizes the lines in which the value
##90 appeared and replaces the value in column 2 with a previously defined
##ERRORVALUE set for each specific type (type 10=1, 11=2,12=3, 30=4, 31=5, 32=6).

Мне удалось успешно удалить повторяющиеся строки, однако я не могу выполнить следующую часть моегокод, который должен заменить значения, которые я обозначил в BEGIN как ОШИБКИ (10 = 1, 11 = 2, 12 = 3, 30 = 4, 31 = 5, 32 = 6) фактическими столбцами, которые содержат это значение.По сути, я хочу просто заменить это значение в строке на мою ОШИБКУ.

Если кто-то может помочь мне с этим, я был бы очень признателен.

glenn jackman · Answer 1 · 14 марта 2012

Одна проблема состоит в том, что вы не можете просто сравнить одну строку с предыдущей, потому что номер ID будет другим.

awk '
  BEGIN {
    ERRORVALUE[10] = 1
    # ... etc
  }

  # print the header
  NR == 1 {print; next}

  NR == 2 || $0 !~ prev_regex {
    prev_regex = sprintf("^\\s+\\w+\\s+%s\\s+%s\\s+%s\\s+%s\\s+%s",$2,$3,$4,$5,$6)
    if (was90) $2 = ERRORVALUE[$2]
    print
    was90 = ($2 == 90)
  }
'

Для строк, в которых изменен 2-й столбец, это разрушает форматирование строки:

 #      Type    Response        Acc     RT      Offset
   1      70  0    0   0.0000 57850
   2      31  0    0   0.0000 59371
   3      41  0    0   0.0000 60909
   4      70  0    0   0.0000 61478
   5      31  0    0   0.0000 62999
   6      41  0    0   0.0000 64537
   8      70  0    0   0.0000 65106
   9      11  0    0   0.0000 66627
  10      21  0    0   0.0000 68165
  11      90  0    0   0.0000 68700
12 5 0 0 0.0000 70221

Если это проблема, вы можете перенаправить вывод gawk в column -t, или если вы знаете, что формат строки фиксирован, используйте printf () в программе awk.

Zsolt Botykai · Answer 2 · 15 марта 2012

Это может работать для вас:

awk 'BEGIN {
        ERROROFFSET = 50;
        ERRORVALUE[10] = 1;
        ERRORVALUE[11] = 2;
        ERRORVALUE[12] = 3;
        ERRORVALUE[30] = 4;
        ERRORVALUE[31] = 5;
        ERRORVALUE[32] = 6;
     }
     NR == 1 { print ; next }
     { if (a[$2 $6]) { next } else { a[$2 $6]++ }
       if ( $2 == 90) { print ; n++ ; next } 
       if (n>0) { $2 = ERRORVALUE[$2] ; n=0 }
       printf("% 4i% 8i%  3i% 5i% 9.4f% 6i\n", $1, $2, $3, $4, $5, $6)
     }' INPUTFILE

Смотрите это в действии здесь на ideone.com .

IMO блок BEGIN очевиден. Затем происходит следующее:

строка NR == 1 печатает самую первую строку (и переключается на следующую строку, также это правило применяется только к самой первой строке)
Затем проверяем, видели ли мы уже строку any с теми же 2-м и 6-м столбцами и, если это так, переключаемся на следующую строку, в противном случае помечаем ее как видимую в массиве (используя объединенные значения столбцов в качестве неопределенности, но обратите внимание , что это может не сработать, если у вас есть большие значения во 2-м и маленькие в 6-м (например, 2 0020 объединено 20020, и то же самое для 20 020), поэтому вы можете добавить разделитель столбцов в индексе, такой как a[$2 "-" $6] ... и вы можете использовать больше столбцов, чтобы проверить еще более правильно)
Если строка содержит 90, во втором столбце печатается ее, флажки поменяются местами на следующей строке, а затем переключатся на следующую строку (во входном файле)
В следующей строке проверяет 2-й столбец в ERRORVALUE и, если он находит, заменяет его содержимое.
Затем печатает форматированную строку.

potong · Answer 3 · 15 марта 2012

Это может работать для вас:

v=99999
sed ':a;$!N;s/^\(\s*\S*\s*\)\(.*\)\s*\n.*\2/\1\2/;ta;s/^\(\s*\S*\s*\)   90 /\1'"$(printf "%5d" $v)"' /;P;D' file
 #      Type    Response        Acc     RT      Offset    
   1      70  0    0   0.0000 57850
   2      31  0    0   0.0000 59371
   3      41  0    0   0.0000 60909
   4      70  0    0   0.0000 61478
   5      31  0    0   0.0000 62999 
   6      41  0    0   0.0000 64537
   8      70  0    0   0.0000 65106
   9      11  0    0   0.0000 66627
  10      21  0    0   0.0000 68165
  11   99999  0    0   0.0000 68700
  12      31  0    0   0.0000 70221

J.D. · Answer 4 · 23 марта 2012

Предыдущие опции работают по большей части, однако вот как я это сделал, простой и приятный.После просмотра других постов я считаю, что это будет наиболее эффективным.Кроме того, это также позволяет дополнительному запросу, добавленному в комментариях к OP, заменить строку после 90 на переменную из 2 строк ранее.Это делает все за один проход.

BEGIN {
    PC2=PC6=1337
    replacement=5
}
{
    if( $6 == PC6 ) next
    if( PC2 == 90 ) $2 = replacement
    replacement = PC2
    PC2 = $2 
    PC6 = $6
    printf "%4s%8s%3s%5s%9s%6s\n",$1, $2, $3, $4, $5, $6
}

Пример ввода

   1      70  0    0   0.0000 57850
   2      31  0    0   0.0000 59371
   3      41  0    0   0.0000 60909
   4      70  0    0   0.0000 61478
   5      31  0    0   0.0000 62999 
   6      41  0    0   0.0000 64537
   7      41  0    0   0.0000 64537
   8      70  0    0   0.0000 65106
   9      11  0    0   0.0000 66627
  10      21  0    0   0.0000 68165
  11      90  0    0   0.0000 68700
  12      31  0    0   0.0000 70221

Пример вывода

   1      70  0    0 0.000000 57850
   2      31  0    0 0.000000 59371
   3      41  0    0 0.000000 60909
   4      70  0    0 0.000000 61478
   5      31  0    0 0.000000 62999
   6      41  0    0 0.000000 64537
   8      70  0    0 0.000000 65106
   9      11  0    0 0.000000 66627
  10      21  0    0 0.000000 68165
  11      90  0    0 0.000000 68700
  12      21  0    0 0.000000 70221

Steve · Answer 5 · 15 марта 2012

Я согласен с Гленном, что два прохода по файлу приятнее. Вы можете удалить дубликаты, возможно, непоследовательные строки, используя такой хеш-код:

awk '!a[$2,$3,$4,$5,$6]++' file.txt

Затем вы должны отредактировать ваши значения по желанию. Если вы хотите изменить значение 90 во втором столбце на 5000, попробуйте что-то вроде этого:

awk 'NR == 1 { print; next } { sub(/^90$/, "5000", $2); printf("%4i% 8i% 3i% 5i% 9.4f% 6i\n", $1, $2, $3, $4, $5, $6) }' file.txt

Вы можете видеть, что я украл оператор printf Zsolt (спасибо Zsolt!) За форматирование, но вы можете отредактировать его при необходимости. Вы также можете перенаправить вывод из первого оператора во второй для хорошей однострочной:

cat file.txt | awk '!a[$2,$3,$4,$5,$6]++' | awk 'NR == 1 { print; next } { sub(/^90$/, "5000", $2); printf("%4i% 8i% 3i% 5i% 9.4f% 6i\n", $1, $2, $3, $4, $5, $6) }'

Найдите конкретные столбцы и замените следующий столбец определенным значением на gawk

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Найдите конкретные столбцы и замените следующий столбец определенным значением на gawk

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы