Вот еще одно решение - использовать два шага группового метода.
# First, groupby ['source','tables'] to deal with the annoying 'Record Count'
# Need python 3.5+
# Otherwise, another method to merge two dicts should be used
df_new=df.groupby(['source','tables']).apply(lambda x: {**{'Record Count':x.iloc[0,-1]}, **{x.iloc[i,-4]: {'type':x.iloc[i,-3],'length':x.iloc[i,-2]} for i in range(len(x))}}).reset_index()
См. Слияние диктов
После первого шага df_new
выглядит
source tables 0
0 src1 table1 {'Record Count': 71, 'col1': {'type': 'INT', 'length': 4}, 'col2': {'type': 'CHAR', 'length': 2}}
1 src1 table2 {'Record Count': 43, 'col1': {'type': 'CHAR', 'length': 2}}
2 src2 table1 {'Record Count': 21, 'col1': {'type': 'INT', 'length': 4}, 'col2': {'type': 'DATE', 'length': 3}}
# Second groupby
df_final = df_new.groupby('source').apply(lambda x: {x.iloc[i,-2]: x.iloc[i,-1] for i in range(len(x))})
output = df_final.to_json()
output
- это кодированный строковый тип файла json. Чтобы получить версию с отступом
import json
temp = json.loads(output)
with open('somefile','w') as f:
json.dump(temp,f,indent=4)