Как манипулировать интервалами в таблице из трех колонок - PullRequest
0 голосов
/ 08 февраля 2020

У меня есть файл, часть которого я выкладываю вам ниже после сортировки:

area1   38896   39876
area1   39532   40521
area1   55975   56958
area1   73070   74098
area1   79689   79934
area2   43757   46798
area2   44055   47111
area2   54208   54354
area2   57000   59336
area2   69391   72882
area3   49621   50967
area3   49946   51322
area3   53044   53505
area3   65205   66473
area3   66888   68294

Моя цель - получить один интервал из этих областей, вычтя последний набор координат минус первый, для каждой области. По определению, внутренняя часть 2-х точек в декартовой системе равна d= sqrt( (X2 –x1)^2 +(y2 –y1)^2 ) Первоначально я пытался найти решение с помощью bedtool, но не нашел ничего, связанного с моим случаем.

Мой желаемый вывод:

d area1 =sqrt{ (79689 -38896) ^2 + (79934-39876) ^2}

d area2 =sqrt{ (69391-43757 ) ^2 + (72882-46798)^2} et c

Я пишу это приглашение:

Cat myfile | sort -k1,1 -k2,2n |sort -V  |awk 'NR %5==1 {print $1,$2,$3 } NR%5==0 {print $1,$2,$3}'|awk {for (i=2; i<=$i ;i++) {a[i]=sqrt((p[i]*p[i])+($i*$1))}  } { for(i=2; i<=$i ;i++) {p[i]=$i;}  }  /[0-9]/{ for (i in a) {printf "%s ",a[i]};print "";print "" } 

Но я не смог сделать то, что хочу. У кого-нибудь есть идеи, как с этим справиться?

1 Ответ

1 голос
/ 22 марта 2020

Не самое оптимизированное решение, но это должно работать.

sort -k1,1 -k2,2n -k3,3n < your_file_name | \
awk '{if(length(x1[$1])==0) x1[$1]=$2; x2[$1]=$2;\
if(length(y1[$1])==0) y1[$1]=$3; y2[$1]=$3;} END \
{for (i in x1) print i, sqrt((x2[i]-x1[i])^2+(y2[i]-y1[i])^2)}'

Объяснение:

sort -k1,1 -k2,2n -k3,3n  --  Sort data and numeric sort for column 2 and 3
if(length(x1[$1])==0) x1[$1]=$2; x2[$1]=$2;--  Use associate array to get first value for each area name 
END -- Loop through all records 

Демонстрация:

$sort -k1,1 -k2,2n -k3,3n < area.txt | awk '{if(length(x1[$1])==0) x1[$1]=$2; x2[$1]=$2;\
if(length(y1[$1])==0) y1[$1]=$3; y2[$1]=$3;} END \
{for (i in x1) print i, sqrt((x2[i]-x1[i])^2+(y2[i]-y1[i])^2)}'
area1 57172.7
area2 36571.5
area3 24461.7
$cat area.txt 
area1 38896 39876
area1 39532 40521
area1 55975 56958
area1 73070 74098
area1 79689 79934
area2 43757 46798
area2 44055 47111
area2 54208 54354
area2 57000 59336
area2 69391 72882
area3 49621 50967
area3 49946 51322
area3 53044 53505
area3 65205 66473
area3 66888 68294
$

$sort -k1,1 -k2,2n -k3,3n < area.txt | awk '{if(length(x1[$1])==0) x1[$1]=$2; x2[$1]=$2;\
if(length(y1[$1])==0) y1[$1]=$3; y2[$1]=$3;} END \
{for (i in x1) print i, x2[i], x1[i], y2[i], y1[i]}'
area1 79689 38896 79934 39876
area2 69391 43757 72882 46798
area3 66888 49621 68294 50967
$

...