Как преобразовать отдельные IP-адреса в диапазоны на основе данных соответствующих столбцов в CSV - PullRequest
0 голосов
/ 19 июня 2019

Мне нужно сгруппировать данные CSV таким образом, чтобы несортированные последовательные IP-адреса с одинаковыми данными порта (столбец G) были объединены в диапазон.

sort --field-separator=',' -k 7 -k 6 $filename.tmp1 > $filename.tmp2 #sort list by port then IP address
awk -F, 'BEGIN {SUBSEP=OFS=FS} ???' $filename.tmp2 > $filename.tmp3 # combine consecutive IPs into ranges

Введите:

"A","B","C","D","E","10.184.110.34","10110 36111" 
"A","B","C","D","E","10.184.110.33","1000" 
"A","B","C","D","E","10.184.110.36","10110 36111" 
"A","B","C","D","E","10.184.110.35","10110 36111" 
"A","B","C","D","E","10.184.110.38","10110" 
"A","B","C","D","E","10.184.110.39","10110 36111" 
"A","B","C","D","E","10.184.110.37","10110" 
"A","B","C","D","E","10.184.110.40","10110 36111" 
"A","B","C","D","E","10.184.110.42","10110 36111"

Ожидаемый результат:

"A","B","C","D","E","10.184.110.33","1000" 
"A","B","C","D","E","10.184.110.34-10.184.110.36","10110 36111"
"A","B","C","D","E","10.184.110.37-10.184.110.38","10110"
"A","B","C","D","E","10.184.110.39-10.184.110.40","10110 36111" 
"A","B","C","D","E","10.184.110.42","10110 36111"

Ответы [ 2 ]

0 голосов
/ 19 июня 2019

Вот решение с использованием Python. Как только мы начинаем работать с цитируемыми CSV-файлами, я удаляюсь от sed / awk / bash. Например, awk не сможет различить запятую в кавычках и запятую в качестве разделителя.

В решении Python также делается небольшая математика IP, чтобы учесть, что диапазоны включают больше, чем последний октет.

Вот как выполнить скрипт:

$ python IPs2Ranges.py <( sort --field-separator=',' -k 6,6  input ) 
"A","B","C","D","E","10.184.110.33","1000"
"A","B","C","D","E","10.184.110.34-10.184.110.36","10110 36111"
"A","B","C","D","E","10.184.110.37-10.184.110.38","10110"
"A","B","C","D","E","10.184.110.39-10.184.110.40","10110 36111"
"A","B","C","D","E","10.184.110.42","10110 36111"

А вот и сценарий:

#!/usr/bin/python

import csv
import sys

def IPtoNum( IP ):
  octets = IP.split('.')
  num = 0
  for octet in octets:
    num <<= 8
    num += int(octet)
  return num

def NumToIP( num ):
  IP=""
  for x in range(4):
    IP= str(num % 256) + "." + IP
    num /= 256

  return IP[:-1]


def nextIP( IP, inc=1 ):
  num=IPtoNum(IP) + inc
  return NumToIP(num)

with open(sys.argv[1], 'r') as f:
  csvreader = csv.reader( f )
  firstIP=''
  lastIP=''
  prevIP=''
  lastPorts = ''
  for line in csvreader:
    IP=line[5]
    ports=line[6].rstrip()
    if  ports == lastPorts and IP == nextIP( prevIP ) :
      lastIP = IP
      prevIP = IP
    else:
      if len(firstIP) > 0 :      
        if firstIP == lastIP:
          print ('"%s",' * 7  % (line[0],line[1],line[2],line[3],line[4],firstIP,lastPorts))[:-1]
        else:
          print ('"%s",' * 7  % (line[0],line[1],line[2],line[3],line[4],firstIP + "-" + lastIP,lastPorts ))[:-1]

      lastPorts = ports
      firstIP = IP
      prevIP = IP 
      lastIP = IP 

  if firstIP == lastIP:
    print ('"%s",' * 7  % (line[0],line[1],line[2],line[3],line[4],firstIP,lastPorts))[:-1]
  else:
    print ('"%s",' * 7  % (line[0],line[1],line[2],line[3],line[4],firstIP + "-" + lastIP,lastPorts ))[:-1]
0 голосов
/ 19 июня 2019

Решение awk.

sort -t, -k7 -k6 in.txt |
awk -F, '
  function out(     x, ips) {
    ips = lastprefix startn
    if (startn != lastn) ips = ips "-" lastprefix lastn
    print $1,$2,$3,$4,$5,"\""ips"\"",lastportdata
  }

  BEGIN { OFS = FS; first = 1 }

  NF != 7 { ++first; next }

  {
    split($6, fields, ".")
    n = strtonum(fields[4])
    prefix = substr(fields[1],2) "." fields[2] "." fields[3] "."
  }

  NR == first {
    lastportdata = $7
    startn = lastn = n
    lastprefix = prefix
    next
  }

  {
    if ($7 != lastportdata || prefix != lastprefix || n != lastn + 1) {
      out()
      startn = n
    }
    lastportdata = $7
    lastprefix = prefix
    lastn = n
  }

  END { out() }
' |
sort -t, -k6
...