Я в новой манипуляции с JSON.В настоящее время я занимаюсь проектом НЛП.Я строю модель NER, используя Spacy.Для аннотации я использовал сервис аннотаций dataturks.com.они дали отформатированный файл JSON, элементы примера json выглядят следующим образом.если быть точным Этот json-элементы получены из CSV-файла
{"content": "Canada,Airdrie,Alberta,M1B 0V1 ,418-555-0122","annotation":[{"label":["Phone Number"],"points":[{"start":32,"end":43,"text":"418-555-0122"}]},{"label":["Postal Code"],"points":[{"start":23,"end":29,"text":"M1B 0V1"}]},{"label":["Province"],"points":[{"start":15,"end":21,"text":"Alberta"}]},{"label":["City"],"points":[{"start":7,"end":13,"text":"Airdrie"}]},{"label":["Country"],"points":[{"start":0,"end":5,"text":"Canada"}]}],"extras":null,"metadata":{"first_done_at":1545039231000,"last_updated_at":1545039231000,"sec_taken":50,"last_updated_by":"eODxmFU8wjPq8GJrmJtb0s7Wn9u1","status":"done","evaluation":"NONE"}}
{"content": "Canada,Barrie,Ontario,J2K 3C7 ,418-555-0135","annotation":[{"label":["Phone Number"],"points":[{"start":31,"end":42,"text":"418-555-0135"}]},{"label":["Postal Code"],"points":[{"start":22,"end":28,"text":"J2K 3C7"}]},{"label":["Province"],"points":[{"start":14,"end":20,"text":"Ontario"}]},{"label":["City"],"points":[{"start":7,"end":12,"text":"Barrie"}]},{"label":["Country"],"points":[{"start":0,"end":5,"text":"Canada"}]}],"extras":null,"metadata":{"first_done_at":1545157658000,"last_updated_at":1545157658000,"sec_taken":21,"last_updated_by":"eODxmFU8wjPq8GJrmJtb0s7Wn9u1","status":"done","evaluation":"NONE"}}
{"content": "Canada,Brandon,Manitoba,B1A 2X0 ,418-555-0171","annotation":[{"label":["Phone Number"],"points":[{"start":33,"end":44,"text":"418-555-0171"}]},{"label":["Postal Code"],"points":[{"start":24,"end":30,"text":"B1A 2X0"}]},{"label":["Province"],"points":[{"start":15,"end":22,"text":"Manitoba"}]},{"label":["City"],"points":[{"start":7,"end":13,"text":"Brandon"}]},{"label":["Country"],"points":[{"start":0,"end":5,"text":"Canada"}]}],"extras":null,"metadata":{"first_done_at":1545113770000,"last_updated_at":1545113770000,"sec_taken":27,"last_updated_by":"eODxmFU8wjPq8GJrmJtb0s7Wn9u1","status":"done","evaluation":"NONE"}}
Мой фрагмент кода
trainingfilename="C:/Users/codemen/Desktop/Timeseries Analytics/Canadianinfo.json"
logging.basicConfig(level=logging.INFO)
def ConvertDataturkToSpacy(trainingfilename):
try:
trainingData=[]
lines=[]
# reading file and formating part
with open(trainingfilename,'r') as f:
lines=f.readlines()
for line in lines:
data=json.loads(line)
#wprint(data)
text=data['content']
print("Mytext",text)
entities=[]
#print('entties',entities)
for annotation in data['annotation']:
#print("Here is the thing")
points=annotation['points'][0] #single point annotation part
#print(point)
labels=annotation['label']
print(labels)
#print("type",type(labels))
if not isinstance(labels,list):#handling both list of labels or single label
labels=[labels]
# print("instance",labels)
for label in labels:
#dataturks indices are inclusive but spacy indices are not so dealing with it by adding with +1
#print("Test here")
#print ("label")
#print("priniting label")
#print(label)
#print(" inside type",type(label))
# print(points['start'],points["end"]+1,label)
entities.append((points["start"],points["end"]+1,label))
#entities.append({points['start'],points["end"]+1,label})
#print("MyEntities",entities)
trainingData.append((text,{"entities":entities}))
return trainingData
#print("TrainingData",trainingData)
#print("Datatype",type(trainingData))
#return trainingData
except Exception as e:
logging.exception("Unable to process item" + trainingfilename +"\n"+ "errror ="+str(e))
return None
TrainingData=ConvertDataturkToSpacy(trainingfilename)
Я прокомментировал желаемое выражение return, если я его там оставлю, оно показывает Нет объекта типа не повторяемая ошибка .поэтому для целей тестирования я поместил оператор return внутри цикла for, который фактически возвращает список, который является моим первым элементом json в моем файле
[('Canada,Airdrie,Alberta,M1B 0V1 ,418-555-0122', {'entities': [(32, 44, 'Phone Number'), (23, 30, 'Postal Code'), (15, 22, 'Province'), (7, 14, 'City'), (0, 6, 'Country')]})]
мой желаемый список будет таким, но с 1000 элементами списка, такими какэтот.Так что я думаю, что не правильно манипулирую JSON.Пожалуйста, помогите мне решить эту проблему спасибо