Прошу прощения, если это очень просто или меня уже спросили, я новичок в Python и работаю с файлами json, поэтому я в замешательстве. ,Эти данные состоят из информации о 3 млн. Человек. У каждого человека есть атрибуты, но не все люди имеют одинаковые атрибуты. Атрибут соответствует ключу в файле json, например:
{
"_id": "in-00000001",
"name": {
"family_name": "Trump",
"given_name": "Donald"
},
"locality": "United States",
"skills": [
"Twitter",
"Real Estate",
"Golf"
],
"industry": "Government",
"experience": [
{
"org": "Republican",
"end": "Present",
"start": "January 2017",
"title": "President of the United States"
},
{
"org": "The Apprentice",
"end": "2015",
"start": "2003",
"title": "The guy that fires people"
}]
}
Итак, _id
, name
, locality
, skills
, industry
и experience
атрибуты (ключи). Другой профиль может иметь дополнительные атрибуты, например education
, awards
, interests
, или не иметь какого-либо атрибута, обнаруженного в другом профиле, например атрибут skills
и т. Д.
Что бы ямне нравится сканировать каждый профиль в файле json, и если профиль содержит атрибуты skills
, industry
и experience
, я хотел бы извлечь эту информацию и вставить ее во фрейм данных (я полагаю,Мне для этого нужны панды?)Начиная с experience
, я хотел бы специально извлечь имя их текущего работодателя, то есть самый последний список под org
. Фрейм данных будет выглядеть так:
Industry | Current employer | Skills
___________________________________________________________________
Government | Republican | Twitter, Real Estate, Golf
Marketing | Marketers R Us | Branding, Social Media, Advertising
... и т. Д. Для всех профилей с этими тремя атрибутами.
Я изо всех сил пытаюсь найти хороший ресурс, который объясняет, какделайте такие вещи, отсюда и мой вопрос.
Полагаю, грубый псевдокод будет:
for each profile in open(path to .json file):
if profile has keys "experience", "industry" AND "skills":
on the same row of the data frame:
insert current employer into "current employer" column of
data frame
insert industry into "industry" column of data frame
insert list of skills into "skills" column of data frame
Мне просто нужно знать, как написать это на Python.