Как перебрать элементы json в файле в python и добавить его в список - PullRequest
0 голосов
/ 24 декабря 2018

Я в новой манипуляции с JSON.В настоящее время я занимаюсь проектом НЛП.Я строю модель NER, используя Spacy.Для аннотации я использовал сервис аннотаций dataturks.com.они дали отформатированный файл JSON, элементы примера json выглядят следующим образом.если быть точным Этот json-элементы получены из CSV-файла

{"content": "Canada,Airdrie,Alberta,M1B 0V1 ,418-555-0122","annotation":[{"label":["Phone Number"],"points":[{"start":32,"end":43,"text":"418-555-0122"}]},{"label":["Postal Code"],"points":[{"start":23,"end":29,"text":"M1B 0V1"}]},{"label":["Province"],"points":[{"start":15,"end":21,"text":"Alberta"}]},{"label":["City"],"points":[{"start":7,"end":13,"text":"Airdrie"}]},{"label":["Country"],"points":[{"start":0,"end":5,"text":"Canada"}]}],"extras":null,"metadata":{"first_done_at":1545039231000,"last_updated_at":1545039231000,"sec_taken":50,"last_updated_by":"eODxmFU8wjPq8GJrmJtb0s7Wn9u1","status":"done","evaluation":"NONE"}}
{"content": "Canada,Barrie,Ontario,J2K 3C7 ,418-555-0135","annotation":[{"label":["Phone Number"],"points":[{"start":31,"end":42,"text":"418-555-0135"}]},{"label":["Postal Code"],"points":[{"start":22,"end":28,"text":"J2K 3C7"}]},{"label":["Province"],"points":[{"start":14,"end":20,"text":"Ontario"}]},{"label":["City"],"points":[{"start":7,"end":12,"text":"Barrie"}]},{"label":["Country"],"points":[{"start":0,"end":5,"text":"Canada"}]}],"extras":null,"metadata":{"first_done_at":1545157658000,"last_updated_at":1545157658000,"sec_taken":21,"last_updated_by":"eODxmFU8wjPq8GJrmJtb0s7Wn9u1","status":"done","evaluation":"NONE"}}
{"content": "Canada,Brandon,Manitoba,B1A 2X0 ,418-555-0171","annotation":[{"label":["Phone Number"],"points":[{"start":33,"end":44,"text":"418-555-0171"}]},{"label":["Postal Code"],"points":[{"start":24,"end":30,"text":"B1A 2X0"}]},{"label":["Province"],"points":[{"start":15,"end":22,"text":"Manitoba"}]},{"label":["City"],"points":[{"start":7,"end":13,"text":"Brandon"}]},{"label":["Country"],"points":[{"start":0,"end":5,"text":"Canada"}]}],"extras":null,"metadata":{"first_done_at":1545113770000,"last_updated_at":1545113770000,"sec_taken":27,"last_updated_by":"eODxmFU8wjPq8GJrmJtb0s7Wn9u1","status":"done","evaluation":"NONE"}}

Мой фрагмент кода

trainingfilename="C:/Users/codemen/Desktop/Timeseries Analytics/Canadianinfo.json"

logging.basicConfig(level=logging.INFO)
def ConvertDataturkToSpacy(trainingfilename):

    try:
        trainingData=[]
        lines=[]
        # reading file  and  formating  part
        with open(trainingfilename,'r') as f:
            lines=f.readlines()
        for line in lines:
            data=json.loads(line)
            #wprint(data)
            text=data['content']
            print("Mytext",text)
            entities=[]
            #print('entties',entities)
            for annotation in data['annotation']:
                #print("Here is the thing")
                points=annotation['points'][0] #single point annotation part
                #print(point)
                labels=annotation['label']
                print(labels)
                #print("type",type(labels))
                if not isinstance(labels,list):#handling both list of labels or single label
                    labels=[labels]
                   # print("instance",labels)

                for label in labels:
                    #dataturks indices are inclusive but spacy indices are not so dealing with it by adding  with +1
                    #print("Test here")
                    #print ("label")
                    #print("priniting label")
                    #print(label)
                    #print(" inside type",type(label))
                   # print(points['start'],points["end"]+1,label)
                    entities.append((points["start"],points["end"]+1,label))
                    #entities.append({points['start'],points["end"]+1,label})
                    #print("MyEntities",entities)


            trainingData.append((text,{"entities":entities}))
            return trainingData
            #print("TrainingData",trainingData)
            #print("Datatype",type(trainingData))
        #return trainingData
    except Exception as e:

        logging.exception("Unable to process item" + trainingfilename +"\n"+ "errror ="+str(e))
        return None




TrainingData=ConvertDataturkToSpacy(trainingfilename)   

Я прокомментировал желаемое выражение return, если я его там оставлю, оно показывает Нет объекта типа не повторяемая ошибка .поэтому для целей тестирования я поместил оператор return внутри цикла for, который фактически возвращает список, который является моим первым элементом json в моем файле

[('Canada,Airdrie,Alberta,M1B 0V1 ,418-555-0122', {'entities': [(32, 44, 'Phone Number'), (23, 30, 'Postal Code'), (15, 22, 'Province'), (7, 14, 'City'), (0, 6, 'Country')]})]

мой желаемый список будет таким, но с 1000 элементами списка, такими какэтот.Так что я думаю, что не правильно манипулирую JSON.Пожалуйста, помогите мне решить эту проблему спасибо

Ответы [ 2 ]

0 голосов
/ 24 декабря 2018

Разделение задач немного больше может помочь найти вашу ошибку.Другими словами, чтение в данных и преобразование из json в dict концептуально отделено от просмотра dicts и извлечения / переформатирования информации.Вы можете протестировать их по отдельности и, например, убедиться, что ваш .json действительно загружен в память.

Для меня следующее дает указанный вами вывод и никаких ошибок (слегка изменяя ваш код, но сохраняя ту же логику):

with open("places.json",'r') as fh:
    txt = fh.readlines()
    reps = [json.loads(l) for l in txt]

def extract_info(js):
  try:
    entities = []
    for e in js['annotation']:
        labs = e['label'] if isinstance(e['label'],list) else [e['label']]
        pts = e['points'][0]
        for lab in labs:
            entities.append((pts["start"],pts["end"]+1,lab))
    return (js['content'],{"entities" : entities})
  except Exception as e:
    print(e)
    return None

# can make this an explicit for loop if needed for debugging purposes
training_data = [extract_info(r) for r in reps]

[('Canada,Airdrie,Alberta,M1B 0V1 ,418-555-0122',
  {'entities': [(32, 44, 'Phone Number'),
    (23, 30, 'Postal Code'),
    (15, 22, 'Province'),
    (7, 14, 'City'),
    (0, 6, 'Country')]}),
 ('Canada,Barrie,Ontario,J2K 3C7 ,418-555-0135',
  {'entities': [(31, 43, 'Phone Number'),
    (22, 29, 'Postal Code'),
    (14, 21, 'Province'),
    (7, 13, 'City'),
    (0, 6, 'Country')]}),
 ('Canada,Brandon,Manitoba,B1A 2X0 ,418-555-0171',
  {'entities': [(33, 45, 'Phone Number'),
    (24, 31, 'Postal Code'),
    (15, 23, 'Province'),
    (7, 14, 'City'),
    (0, 6, 'Country')]})]

Может быть невозможно определить без дальнейшего контекста, в чем проблема (где-то есть особенность в форматировании данных?), Поэтому может потребоваться просто учесть дополнительные крайние случаи в процессе извлечения.

FWIW, указанную вами ошибку легко определить:

for x in None: print(x) # TypeError: 'NoneType' object is not iterable
0 голосов
/ 24 декабря 2018

У Pandas есть несколько полезных функций для изучения json, при условии, что ваш json действителен, загрузите его примерно так:

   import pandas as pd

   with open(filepath, 'r') as jdata:
       jobj =  json.load(jdata)
       df = pd.read_json(jobj)
       print(df)

Когда у вас есть фрейм данных pandas, вы можете увидеть json в виде таблицыстроки и столбцы и может выбрать подмножество строк и столбцов, чтобы изолировать данные, которые вам нужны, или, если не более, получить более четкое представление о данных

...