Разобрать глубоко вложенный XML в pandas dataframe - PullRequest
0 голосов
/ 16 апреля 2019

Я пытаюсь получить определенные части файла XML и переместить его в кадр данных pandas. После некоторых уроков из xml.etree я все еще застрял в получении результата. До сих пор мне удалось найти дочерние узлы, но я не могу получить к ним доступ (т.е. не могу получить из них фактические данные). Итак, вот что у меня есть.

#find all nodes within xml data
#access the node

Я хочу получить данные от узла programDescriptions и, в частности, от ребенка programDescriptionText xml:lang="nl", и, конечно, пару дополнительных. Но сначала сосредоточимся на этом.

Некоторые данные для работы:

<?xml version="1.0" encoding="UTF-8"?>
<programs xmlns="http://someUrl.nl/schema/enterprise/program">
<program xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://someUrl.nl/schema/enterprise/program http://someUrl.nl/schema/enterprise/program.xsd">
<format>Edu-dex 1.0</format>
    <requiredLevel>academic bachelor</requiredLevel>
    <startDateDetermination>fixed starting date</startDateDetermination>
        <summary xml:lang="nl">
        Long text of the summary. Not needed.
    <studyLoad period="hour">26</studyLoad>
    <programName xml:lang="nl">Program Course Name</programName>
    <programSummaryText xml:lang="nl">short Program Course Name summary</programSummaryText>
    <programSummaryHtml xml:lang="nl">short Program Course Name summary in HTML format</programSummaryHtml>
    <programDescriptionText xml:lang="nl">This part is needed from the XML.
        Big program description text. This part is needed to parse from the XML file.
    <programDescriptionHtml xml:lang="nl">Not needed;
        Not needed as well;
        <header1 xml:lang="nl">Beschrijving</header1>
        <descriptionHtml xml:lang="nl">Yet another HTML desscription;
            Not necessarily needed;</descriptionHtml>
    <searchword xml:lang="nl">search word</searchword>
    <webLink xml:lang="nl">website-url</webLink>
        <status>application opened</status>
        <startDate isFinal="true">2019-06-26</startDate>
        <endDate isFinal="true">2020-02-11</endDate>

1 Ответ

1 голос
/ 16 апреля 2019

Попробуйте код ниже: (55703748.xml содержит опубликованный вами xml)

import xml.etree.ElementTree as ET

tree = ET.parse('55703748.xml')
root = tree.getroot()
nodes = root.findall(".//{http://someUrl.nl/schema/enterprise/program}programSummaryText")
for node in nodes:


short Program Course Name summary