Проблемы разбора нескольких вложенных потомков в XML с использованием lxml - PullRequest
0 голосов
/ 07 апреля 2020

У меня проблемы с анализом каждого дочернего узла в файле xml. Количество узлов может меняться на один прибор_ Root. Например, Instrument_Watch здесь имеет значение NULL, но будет заполнено в других случаях после этого. Моя цель состоит в том, чтобы каждый дочерний узел анализировался индивидуально (Instrument_Ratings, Instrument_Attribute_Ratings, Instrument_Organization, Instrument_Supports и т. Д. c.)

Я пытался выполнить следующее, но он только что несколько раз возвращал первый экземпляр - есть 3700 инструментов_ Root в файле, и Instrument_Rating для этого инструмента Instrument_ Root был повторен 3700 раз. Я также столкнулся с ошибками с etree из-за пространства имен.

from lxml import objectify

xml = objectify.parse(file)
root = xml.getroot()

tree1 = []
tree2 = []
tree3 = []
tree4 = []
for children in range(len(root.getchildren())):
    tree1.append([child.text for child in root.getchildren()[children].iterchildren()])
    for children2 in root.Instrument_Root.Instrument_Ratings.Instrument_Rating.getchildren():
        tree2.append([child2.text for child2 in  root.Instrument_Root.Instrument_Ratings.Instrument_Rating.getchildren()])
        for children3 in root.Instrument_Root.Instrument_Ratings.Instrument_Rating.Instrument_Rating_Attributes.Instrument_Rating_Attribute.getchildren():
            tree3.append([child3.text for child3 in root.Instrument_Root.Instrument_Ratings.Instrument_Rating.Instrument_Rating_Attributes.Instrument_Rating_Attribute.getchildren()])
            for children4 in root.Instrument_Root.Instrument_Organizations.Instrument_Organization.getchildren():
                tree4.append([child4.text for child4 in root.Instrument_Root.Instrument_Organizations.Instrument_Organization.getchildren()])


<?xml version="1.0" encoding="utf-8"?>              
<Instrument_Roots xmlns="http://www.XXXXX.com" xmlns:xsi="http://www.XXXXXXX.XMLSchema-instance" file_type="Baseline" frequency="Hourly-12" generation_time="2020-04-06T12:00:00Z">             
        <Security_Description>Class B</Security_Description>        
        <Instrument_Type_Text>PASS-THRU CTFS</Instrument_Type_Text>     
        <Private_Placement_Text>Not Applicable</Private_Placement_Text>     
        <Coupon_Rate xsi:nil="true"/>       
        <Instrument_Description xsi:nil="true"/>        
        <Product_Line_Description>MBS - Prime</Product_Line_Description>        
        <Series_Class_Text>Class B</Series_Class_Text>      
                <Rating_Class_Text>Senior Secured</Rating_Class_Text>
                <Duration_Text>Long-Term Debt Rating</Duration_Text>
                <Seniority_Text>Senior Secured</Seniority_Text>
                <Evaluation_Type_Text>Credit Risk</Evaluation_Type_Text>
                <Rating_Subclass_Code xsi:nil="true"/>
                <Rating_Subclass_Text xsi:nil="true"/>
                <Currency_Capd_Text>Local Currency</Currency_Capd_Text>
                <Credit_Grade xsi:nil="true"/>
                <Rating_Direction_Text>DECISION NOT TO RATE</Rating_Direction_Text>
                <Rating_Type_Text>Long-Term Debt Rating</Rating_Type_Text>
                <Rating_Termination_Date xsi:nil="true"/>
                <Rating_Termination_Local_Date xsi:nil="true"/>
                <Rating_Reason_Text>DECISION NOT TO RATE</Rating_Reason_Text>
                <Rating_Currency_Text>Australian Dollar</Rating_Currency_Text>
                <Instrument_Watchlist xsi:nil="true"/>
        <Instrument_Supports xsi:nil="true"/>       
                <Organization_Role_Text>Issuer Account Bank</Organization_Role_Text>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Organization_Role_Text>Cash Manager</Organization_Role_Text>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>
        <Instrument_Identifiers xsi:nil="true"/>        
                <Rating_Attribute_Type_Text>SF Indicator</Rating_Attribute_Type_Text>
                <Termination_Date xsi:nil="true"/>
                <Rating_Attribute_Type_Text>SEC Exempt</Rating_Attribute_Type_Text>
                <Termination_Date xsi:nil="true"/>
                <Termination_Date xsi:nil="true"/>

Любые идеи о том, как атаковать это, будут высоко оценены. Спасибо.

1 Ответ

1 голос
/ 07 апреля 2020

Источник вашей проблемы заключается в том, что ваше XML имеет пространство имен по умолчанию (http://www.XXXXX.com), поэтому каждая попытка найти элемент должна включать это пространство имен (ваш код не удалось описать детали).

Для обработки файла XML я использовал следующий код:

  1. Импорт:

    from lxml import etree as et
  2. Считайте файл XML:

    parser = et.XMLParser(remove_blank_text=True)
    tree = et.parse('Instrum.xml', parser)
    root = tree.getroot()
  3. Определите используемое пространство имен:

    ns = {'xx': 'http://www.XXXXX.com'}

    (будет использоваться ниже).

  4. Заполните tree1 текстовым содержимым дочерних элементов каждого Инструмент_ Root:

    tree1 = []
    for elem in root.findall('xx:Instrument_Root/*', ns):
        txt = elem.text
        if txt is not None:

    Обратите внимание, что Инструмент_ Root является прямым потомком узла root, поэтому достаточно указать только имя узла.

  5. Заполнить tree2 текстом содержание дочерних элементов каждого Instrument_Rating :

    tree2 = []
    for elem in root.findall('.//xx:Instrument_Rating/*', ns):
        txt = elem.text
        if txt is not None and len(txt.strip()) > 0:

    На этот раз Instrument_Rating находится где-то глубже в дереве XML, поэтому XPath должен включать // в p выполнить поиск по всем уровням.

    Я также добавил некоторые логи c, чтобы избежать добавления несуществующего текста или текста, содержащего только символы "while" (удалите его, если вы не хотите их пропускать) .

Для вашего XML входного образца я получил:

  1. tree1 :

    ['831295951', '831275547', '18705', 'Pass-Through', 'PAS', '2020-03-21T00:00:00',
     'AUD', 'N', '2051-03-21T00:00:00', '2051', '2020-03-21T00:00:00', '7.2534316791',
     'N', 'N', 'Class B', '24657', 'PASS-THRU CTFS', '24922', 'Not Applicable',
     '26', 'Floating', 'FLT', '16', 'Monthly', 'MON', 'MBS - Prime', 'Class B',
     'AUSTRALIA', '11.2500000000', 'Y', '3']
  2. tree2 :

    ['831295951', '37203', '2020-03-02T01:30:03', '831295958', 'I', 'Senior Secured',
     '18705', 'Pass-Through', 'PAS', '25636', 'Long-Term Debt Rating', 'LT',
     '18743', 'Senior Secured', 'SS', '25648', 'Credit Risk', '5734', 'Enhanced',
     'ENH', '19142', 'Local Currency', 'NR', '0', '19102', 'DECISION NOT TO RATE',
     'NR', '534', 'Long-Term Debt Rating', 'LT', 'ENH', '2020-03-02T17:30:03', '25530',
     'DECISION NOT TO RATE', '20525', 'Australian Dollar', 'AUD', '1', 'Y']

Обратите внимание, что нет необходимости в каких-либо вложенных циклах.

Я думаю что на основе приведенного выше кода вы будете знать, как извлечь содержимое для заполнения tree3 и tree4 .
