Извлечение данных после фильтрации подстроки с помощью Python - PullRequest
0 голосов
/ 13 июня 2018

У меня есть JSON-файл DNS-трафика с этим форматом

{
    "index": {
        "_type": "answer_query", 
        "_id": 0, 
        "_index": "index_name"
    }
}

{
    "answer_section": " ", 
    "query_type": "A", 
    "authority_section": "com. 172 IN SOA a.xxxx-xxxx.net. nstld.xxxx-xxxxcom. 1526440480 1800 900 604800 86400", 
    "record_code": "NXDOMAIN", 
    "ip_src": "xx.xx.xx.xx", 
    "response_ip": "xx.xx.xx.xx", 
    "date_time": "2018-05-16T00:57:20Z", 
    "checksum": "CORRECT", 
    "query_name": "xx.xxxx.com.", 
    "port_src": 50223, 
    "question_section": "xx.xxxx.com. IN A", 
    "answer_count_section": 0
}

Мне нужно извлечь данные с номером после пробела (в данном примере это будет 172) в authority_section изменьше 300 и не обращайте внимания на те из них, которые не соответствуют требованию, а затем запишите выходные данные в другой файл JSON.

Как этого добиться?Спасибо

Ответы [ 2 ]

0 голосов
/ 13 июня 2018

Вы можете попробовать что-то вроде этого:

#!/usr/bin/python3
import json
import re

data = (
    """
    {
         "answer_section": " ",
         "query_type": "A",
         "authority_section": "com. 172 IN SOA a.xxxx-xxxx.net. nstld.xxxx-xxxxcom. 1526440480 1800 900 604800 86400",
         "record_code": "NXDOMAIN",
         "ip_src": "xx.xx.xx.xx",
         "response_ip": "xx.xx.xx.xx",
         "date_time": "2018-05-16T00:57:20Z",
         "checksum": "CORRECT",
         "query_name": "xx.xxxx.com.",
         "port_src": 50223,
         "question_section": "xx.xxxx.com. IN A",
         "answer_count_section": 0
    }
    """
)


json_data = json.loads(data)
print('BEFORE: ', json_data)

r = re.compile('^\s([1-2]\d\d|[1-9]\d|[1-9])\s$')


found = False
key_to_delete = None

for key, value in json_data.items():
    if value == 0:
        pass
    else:
        tmp = str(value)
        for i in range(0, len(tmp)):
            if r.match(tmp[i:i+3]):
                found = True
                key_to_delete = key
                print('FOUND 1: ', value)
            elif r.match(tmp[i:i+4]):
                found = True
                key_to_delete = key
                print('FOUND 2: ', value)
            elif r.match(tmp[i:i+5]):
                found = True
                key_to_delete = key
                print('FOUND 3: ', value)

if found:
    json_data.pop(key_to_delete)

print('RESULT: ', json_data)

Я использую регулярные выражения в своем ответе.Читайте о регулярных выражениях для более подробной информации.

0 голосов
/ 13 июня 2018

Предполагая, что stack1.txt - это файл, который вы разместили.При этом будет записан новый файл stack2.txt, в котором пропущена строка «author_section», если «значение после пробела»> = 300. Это решение не требует синтаксического анализа json, но оно очень зависит от формата данных.соответствует.

import os
with open('stack2.txt','w') as new_file:
    old_file = open('stack1.txt').readlines()
    delete_file = False
    for line in old_file:
        if not (line.strip().startswith('"authority_section"') and int(line.split(':')[1].split()[1]) >= 300):
            new_file.write(line)
        else:
            delete_file = True
if delete_file:
    os.remove('stack2.txt')
...