Создать несколько Dataframe из XML на основе конкретного значения - PullRequest
0 голосов
/ 30 января 2019

Я пытаюсь проанализировать XML и сохранить результаты в Pandas Data-frame.Мне удалось сохранить детали в одном конкретном фрейме данных.Однако сейчас я пытаюсь сохранить результаты в нескольких фреймах данных на основе одного конкретного значения класса.

import pandas as pd
import xml.etree.ElementTree as ET
import os
from collections import defaultdict, OrderedDict

tree = ET.parse('PowerChange_76.xml')
root = tree.getroot()
df_list = []

for i, child in enumerate(root): 
    for subchildren in child.findall('{raml20.xsd}header'):
        for subchildren in child.findall('{raml20.xsd}managedObject'):
            match_found = 0
            xml_class_name = subchildren.get('class')
            xml_dist_name = subchildren.get('distName')
            print(xml_class_name)

            df_dict = OrderedDict()                   
            for subchild in subchildren:
                header = subchild.attrib.get('name')
                df_dict['Class'] = xml_class_name
                df_dict['CellDN'] = xml_dist_name
                df_dict[header]=subchild.text

            df_list.append(df_dict)
df_cm = pd.DataFrame(df_list) 

Ожидаемый результат - создание нескольких фреймов данных на основе номера класса.

Текущий вывод:

enter image description here

Файл XML

1 Ответ

0 голосов
/ 08 марта 2019

Ответ на этот вопрос приведен ниже:

def ExtractMOParam(xmlfile2):
tree2=etree.parse(xmlfile2)
root2=tree2.getroot()
df_list2=[]
for i, child in enumerate(root2):
    for subchildren in (child.findall('{raml21.xsd}header') or child.findall('{raml20.xsd}header')):
        for subchildren in (child.findall('{raml21.xsd}managedObject') or child.findall('{raml20.xsd}managedObject')):
            xml_class_name2 = subchildren.get('class')
            xml_dist_name2 = subchildren.get('distName')
            if ((xml_class_name2 in GetMOClass) and (xml_dist_name2 in GetCellDN)):
                #xml_dist_name2 = subchildren.get('distName')
                #df_list1.append(xml_class_name1)
                for subchild in subchildren:
                    df_dict2=OrderedDict()
                    header2=subchild.attrib.get('name')
                    df_dict2['MOClass']=xml_class_name2
                    df_dict2['CellDN']=xml_dist_name2
                    df_dict2['Parameter']=header2
                    df_dict2['CurrentValue']=subchild.text
                    df_list2.append(df_dict2)
        return df_list2

ExtractDump=pd.DataFrame(ExtractMOParam(inputdfile))

d = dict(tuple(ExtractDump.groupby('MOClass')))

for key in d:
    d[key]=d[key].reset_index().groupby(['CellDN','MOClass','Parameter'])['CurrentValue'].aggregate('first').unstack()
    d[key].reset_index(level=0, inplace=True)
    d[key].reset_index(level=0, inplace=True)

writer = pd.ExcelWriter('ExtractedDump.xlsx', engine='xlsxwriter')
for tab_name, dframe in d.items():
    dframe.to_excel(writer, sheet_name=tab_name,index=False)
writer.save() 

Надеюсь, это поможет и другим.

...