Разбор нескольких экземпляров данных - PullRequest
0 голосов
/ 24 июня 2019

Я пытаюсь проанализировать несколько экземпляров данных из текстового файла. Я могу выполнить grep и захватить одну строку и широту / долготу, связанные с этой находкой, но я выполнил разбор нескольких экземпляров:

... CATEGORICAL ...

SLGT   33618675 34608681 35658642 36668567 38218542 41018363
       41588227 41918045 41377903 40177805 38927813 37817869
       36678030 35068154 33368262 33078321 32888462 33618675
SLGT   30440169 31710202 33010185 33730148 34010037 33999962
       33709892 32869871 30979883 29539912 29430025 30440169
SLGT   41788755 41698893 42069059 42639132 43889124 44438960
       44438757 43988717 43278708 42398720 41788755
MRGL   42897922 41907743 40147624 38837627 37637700 35897915
       35028021 34038079 33118130 31998226 31698419 32078601
       32818733 33848809 34758764 36998623 38588677 39458701
       40178757 40608870 41069099 43549479 44499512 44809478
       45259379 44989263 45109100 45718986 46478920 46758853
       46738752 46398664 44768565 44308457 43198218
MRGL   29720174 31900221 33650181 34160154 34430032 34649931
       34159800 32539784 31359767 29739808 29299723 28969581
       28959440 99999999 26769674 26579796 26139874
TSTM   45077438 43177245 40597113 99999999 30488085 30248563
       29588926 28739072 28569092 99999999 27138160 27578139
       27908100 27848061 27518032 26968006 26338005 25698017
       25338025 25088048 25058071 25238109 25578128 25888157
       26218171 26578170 26988163 27138160 99999999 29200399
       31910374 33520340 35190229 35450147 36109944 36399709
       35779395 36399167 38559059 40189373 41729594 43029985
       42820283 42860489 43580863 44121062 44521135 45281179
       46271166 47561286 48251548 48671765 49051814 99999999
       38810245 37660271 37120322 36950398 37090559 37380662
       38090741 39410791 39980777 40930695 41380598 41370510
       41190353 40840299 40220263 38810245

От: https://www.spc.noaa.gov/products/outlook/archive/2019/KWNSPTSDY1_201906241300.txt

Вот мой код и результаты:

#!/bin/sh

sed -n '/^MRGL/,/^TSTM/p;/^TSTM/q' day1_status | sed '$ d' | sed -e 's/MRGL//g' > MRGL
while read line
do
  count=1
  ncols=$(echo $line | wc -w)
  while [ $count -le $ncols ]
  do
    echo $line | cut -d' ' -f$count
    ((count++))
  done
done < MRGL > MRGL_output.txt


cat  MRGL_output.txt | sed ':a;s/\B[0-9]\{2\}\>/.&/;ta'| sed 's/./, -/6' > MRGL_final

Результаты:

один экземпляр MRGL и широта / долгота, связанные с этим многоугольником

more MRGL
   32947889 34137855 35307825 36147735 36327622 35797468
   27107968 25518232 99999999 27088303 28418215 30208125
       30618064

Превратить указанную выше строку в один экземпляр строк

more MRGL_output.txt
32947889
34137855
35307825
36147735
36327622
35797468
27107968
25518232
99999999
27088303
28418215
30208125
30618064

Окончательный формат, который мне нужен в

more MRGL_final
32.94, -78.89
34.13, -78.55
35.30, -78.25
36.14, -77.35
36.32, -76.22
35.79, -74.68
27.10, -79.68
25.51, -82.32
99.99, -99.99
27.08, -83.03
28.41, -82.15
30.20, -81.25
30.61, -80.64

Просто нужно разобрать несколько обнаруженных экземпляров.

ОБНОВЛЕНИЕ для лучшего объяснения.

... CATEGORICAL ...

ENH    38298326 40108202 40518094 40357974 39907953 39017948
       38038052 36148202 35848297 35888367 36618371 38298326
SLGT   30440169 31710202 33010185 33730148 34010037 33999962
       33709892 32869871 30979883 29539912 29430025 30440169
SLGT   33548672 34408661 35918543 36858496 38648520 41018363
       41588227 41918045 41377903 40177805 38927813 37817869
       36678030 35068154 33368262 33078321 32888462 33548672
SLGT   41788755 41698893 42069059 42639132 43889124 44438960
       44438757 43988717 43278708 42398720 41788755
MRGL   29720174 31900221 33650181 34160154 34430032 34649931
       34159800 32539784 31359767 30059748 29299723 28969581
       28959440 99999999 26769674 26579796 26139874
MRGL   42897922 41907743 40147624 38837627 37637700 35897915
       35028021 34038079 33118130 31938225 30758424 30678620
       30988709 34128741 36208583 37738554 39508601 40628878
       41069099 43549479 44499512 44809478 45259379 44989263
       45109100 45718986 46478920 46758853 46738752 46398664
       44768565 44308457 43198218
TSTM   30488085 29978211 29408316 29068379 99999999 27138160
       27578139 27908100 27848061 27518032 26968006 26338005
       25698017 25338025 25088048 25058071 25238109 25578128
       25888157 26218171 26578170 26988163 27138160 99999999
       45427410 43217292 40247181 99999999 28650405 31910374
       33520340 35190229 35450147 36109944 36399709 35779395
       36769245 38319148 40189373 41219571 41299753 39959979
       38220054 37320091 36560136 36070290 36100295 35840394
       36790544 37150626 37880709 39110774 40120876 41150895
       41600769 41890540 43070599 43580863 43390914 43401262
       44171458 45521497 46131301 47181242 47561286 48251548
       48671765 49371856

Желая взять этот набор данных выше и захватить каждый доступный риск ENH, SLGT, MRGL, TSTM lat и long и поместить в этот формат:

 "Enhanced Risk"
 38.29, -83.26
 40.10, -82.02
 40.51, -80.94
 40.35, -79.74
 39.90, -79.53
 39.01, -79.48
 38.03, -80.52
 36.14, -82.02
 35.84, -82.97
 35.88, -83.67
 36.61, -83.71
 38.29, -83.26
End:


"Slight Risk"
 30.44, -101.69
 31.71, -102.02
 33.01, -101.85
 33.73, -101.48
 34.01, -100.37
 33.99, -99.62
 33.70, -98.92
 32.86, -98.71
 30.97, -98.83
 29.53, -99.12
 29.43, -100.25
 30.44, -101.69
End:


"Slight Risk"
 33.54, -86.72
 34.40, -86.61
 35.91, -85.43
 36.85, -84.96
 38.64, -85.20
 41.01, -83.63
 41.58, -82.27
 41.91, -80.45
 41.37, -79.03
 40.17, -78.05
 38.92, -78.13
 37.81, -78.69
 36.67, -80.30
 35.06, -81.54
 33.36, -82.62
 33.07, -83.21
 32.88, -84.62
 33.54, -86.72
End:


"Slight Risk"
 41.78, -87.55
 41.69, -88.93
 42.06, -90.59
 42.63, -91.32
 43.88, -91.24
 44.43, -89.60
 44.43, -87.57
 43.98, -87.17
 43.27, -87.08
 42.39, -87.20
 41.78, -87.55
End:


"Marginal Risk"
 29.72, -101.74
 31.90, -102.21
 33.65, -101.81
 34.16, -101.54
 34.43, -100.32
 34.64, -99.31
 34.15, -98.00
 32.53, -97.84
 31.35, -97.67
 30.05, -97.48
 29.29, -97.23
 28.96, -95.81
 28.95, -94.40
 26.76, -96.74
 26.57, -97.96
 26.13, -98.74
End:

Ответы [ 3 ]

1 голос
/ 24 июня 2019

Вот небольшая awk-программа, которая, кажется, работает, хотя я не уверен в некоторых деталях.В частности, я не знаю, каково минимальное значение для долготы;очевидно, что к значению ниже минимума добавляется 100, прежде чем долгота аннулируется.Поэтому вам придется изменить LON_THRESHOLD на то, что вы считаете правильным значением.

Я пытался избежать обычного соблазна превратить программы Golf awk в текстовый минимум, в надежде, что эта программаРаботы менее неясны.Но вполне возможно, что некоторые акизмы все-таки пробрались.В конце я добавил немного пояснения.

BEGIN      { risk["HIGH"] = "High Risk"
             risk["ENH"] = "Enhanced Risk"
             risk["SLGT"] = "Slight Risk"
             risk["MRGL"] = "Marginal Risk"
             LON_THRESHOLD = 30
             END_STRING = "End:"
           }
END        { if (in_risk) print END_STRING }
in_risk && substr($0, 1, 1) != " " {
             print END_STRING "\n" "\n"
             in_risk = 0
           }
$1 in risk { printf("\"%s\"\n", risk[$1])
             in_risk = 2
           }
in_risk    { for (i = in_risk; i <= NF; ++i) {
               lat = substr($i, 1, 4) / 100
               lon = substr($i, 5, 4) / 100
               if (lon < LON_THRESHOLD) lon += 100
               printf "%5.2f, %.2f\n", lat, -lon
             }
             in_risk = 1
           }

Сохраните эту программу как, например, noaa.awk, а затем примените ее с:

awk -f noaa.awk input.txt

Byспособ объяснения:

Программы Awk состоят из ряда правил.Каждое правило имеет предикат, то есть выражение, которое оценивается как истинное или ложное значение, и действие.

Awk обрабатывает каждую строку из своего ввода поочередно, просматривая все правила и выполняядействия тех, чьи предикаты оценивают в истинное значение.Внутри действия вы можете использовать оператор $ для доступа к отдельным полям ввода (по умолчанию поля разделяются пробелами).$0 - это вся строка ввода, а $n - номер поля n.В отличие от bash / sh, $ является оператором и может применяться к выражению. Правила

BEGIN и END являются особыми в том смысле, что они не являются реальными переменными.BEGIN правила выполняются ровно один раз, перед любой другой обработкой;END правила выполняются ровно один раз после завершения всей обработки.В этом примере, как обычно, BEGIN используется для инициализации справочных данных, в то время как END используется для любого необходимого завершения - в этом случае печатается последняя строка End:.

В случаяхвот так, где желаемое действие действительно зависит от того, где мы находимся в файле, необходимо создать какой-то конечный автомат, и я сделал это, используя переменную in_risk, которая имеет три возможных значения:

  • 0 или не определено: в данный момент мы не находимся в блоке, соответствующем селектору риска.
  • 1: текущая строка, если она начинается с пробела, является частью ранее идентифицированного селектора риска.
  • 2: текущая строка была обнаружена как начинающаяся с селектора риска.

Причина различия между двумя последними значениями заключается в том, что $1 в строке, которая начинаетсяс селектором риска - селектор риска, тогда как в строке, начинающейся с пробела, $1 фактически является первым числом.Поэтому, когда мы перебираем числа в строке, мы должны начать с $2 для строк, которые начинаются с селектора риска.

0 голосов
/ 24 июня 2019

Есть GNU Awk?

awk -v RS='\\s+' '
        /[A-Z]/ {p = /^MRGL$/? 1: 0; next}
        p {print gensub(/(..)(..)(..)(..)/, "\\1.\\2, -\\3.\\4", "G")}
' file
  • -v RS'\\s+' - Использовать любое количество пробелов в качестве разделителя записей
  • /[A-Z]/ {...} - На записях с заглавными алфавитами делать
  • p = /^MRGL$/? 1: 0; next - Установите флаг, если запись MRGL, иначе не установлены, но всегда пропускайте любые другие правила.
  • p {print gensub(...)} - Выведите результат gensub, если флаг установлен
  • /(...)/, "\\1", "G" - Захватывающие группы , Обратные ссылки, G Лобальное замещение.
0 голосов
/ 24 июня 2019

Если вы просто спрашиваете, как превратить файл строк типа AABBCCDD в строки типа AA.BB, -CC.DD:

perl -nE '/^(..)(..)(..)(..)$/ && say "$1.$2, -$3.$4"' MRGL_output.txt

(Почти наверняка есть лучшие способы перехода от исходного ввода к этим строкам, но я не совсем понимаю, что делает ваш опубликованный код и почему)


I думаю, это будет правильно обрабатывать ваш исходный ввод, но я не уверен, потому что числа в выходных данных вашего образца не совпадают с вашими входными данными, поэтому я не могу проверить:

perl -anE 'if (/^MRGL/ .. /^TSTM/) { exit if /^TSTM/; push @nums, @F }
           END { for (@nums) {
                   if (/^(..)(..)(..)(..)$/) { say "$1.$2, -$3.$4" }
               }}' day1_status
...