Как получить значения элемента из KML с помощью lmxl - PullRequest
1 голос
/ 09 апреля 2019

Моя проблема очень похожа на найденную здесь:

Как извлечь данные из KML / XML?

Ответ на поставленный выше вопрос - использовать Нокогири для исправления формата.

Интересно, есть ли способ решить подобную проблему без предварительного исправления формата.

Как я могу получить значения dict, чтобы я мог получить 'FM2' и 'FM3' из Element SimpleData ниже?

Вот мой кмль:

<?xml version="1.0" encoding="UTF-8"?>
<kml xmlns="http://www.opengis.net/kml/2.2" xmlns:gx="http://www.google.com/kml/ext/2.2" xmlns:kml="http://www.opengis.net/kml/2.2" xmlns:atom="http://www.w3.org/2005/Atom">
<Document>
    <name>Test.kml</name>
    <open>1</open>
    <Schema name="test" id="S_test_SSSSSIIIDSDDDDDISSSDSSSDD">
        <SimpleField type="string" name="ID"> <displayName>&lt;b&gt;ID&lt;/b&gt;</displayName>
        </SimpleField>
        <SimpleField type="string" name="cname"><displayName>&lt;b&gt;cname&lt;/b&gt;</displayName>
        </SimpleField>
    </Schema>
    <Style id="falseColor01">
        <BalloonStyle>
            <text><![CDATA[<table border="0"><tr> 
            <td>b>ID</b>/td>td>$[test/ID]</td></tr>
            <tr><td><b>cname</b></td><td>$[test/cname]</td></tr>
            </table>]]></text>
        </BalloonStyle>
        <LineStyle>
            <color>ffffff00</color>
            <width>3</width>
        </LineStyle>
        <PolyStyle>
            <color>ffffff00</color>
            <colorMode>random</colorMode>
            <fill>0</fill>
        </PolyStyle>
    </Style>
    <StyleMap id="falseColor0">
        <Pair>
            <key>normal</key>
            <styleUrl>#falseColor00</styleUrl>
        </Pair>
        <Pair>
            <key>highlight</key>
            <styleUrl>#falseColor01</styleUrl>
        </Pair>
    </StyleMap>
    <Style id="falseColor00">
      <BalloonStyle>   
      </BalloonStyle>
        <LineStyle>
            <color>ffffff00</color>
            <width>3</width>
        </LineStyle>
        <PolyStyle>
            <color>ffffff00</color>
            <colorMode>random</colorMode>
            <fill>0</fill>
        </PolyStyle>
    </Style>
    <Folder id="layer 0">
        <name>Test_1</name>
        <open>1</open>
        <Placemark>
            <styleUrl>#falseColor0</styleUrl>
            <ExtendedData>
                <SchemaData schemaUrl="#S_test_SSSSSIIIDSDDDDDISSSDSSSDD">
                    <SimpleData name="ID">FM2</SimpleData>
                    <SimpleData name="cname">FM2</SimpleData>
                </SchemaData>
            </ExtendedData>
            <Polygon>
                <outerBoundaryIs>
                    <LinearRing>
                        <coordinates>150.889999,-32.17281600000001,0 
                        </coordinates>
                    </LinearRing>
                </outerBoundaryIs>
            </Polygon>
        </Placemark>
        <Placemark>
            <styleUrl>#falseColor0</styleUrl>
            <ExtendedData>
                <SchemaData schemaUrl="#S_test_SSSSSIIIDSDDDDDISSSDSSSDD">
                    <SimpleData name="ID">FM3</SimpleData>
                    <SimpleData name="cname">FM3</SimpleData>
                </SchemaData>
            </ExtendedData>
            <Polygon>
                <outerBoundaryIs>
                    <LinearRing>
                        <coordinates>150.90104,-32.15662800000001,0
                        </coordinates>
                    </LinearRing>
                </outerBoundaryIs>
            </Polygon>
        </Placemark>
    </Folder>
</Document>
</kml>

Моя цель - получить значения Элементов, то есть «FM2» из «Идентификатора Элемента».

Я пытаюсь использовать lxml etree. Мой код:

tree  = ET.parse(kml_file)
root = tree.getroot()

for Document in root:
    for Folder in Document:
        for Placemark in Folder:
            for ExtendedData in Placemark:
                for SchemaData in ExtendedData:
                    for SimpleData in SchemaData:
                        print(SimpleData.attrib)

и вывод: {'name': 'ID'} {'name': 'cname'}

Как я могу получить значения dict, чтобы я мог получить 'FM2' и 'FM3'?

Я часами пытался решить проблему. Любая помощь будет высоко ценится.

Ответы [ 2 ]

0 голосов
/ 09 апреля 2019

Одна из проблем, с которой вы столкнулись, заключается в том, что когда вы делаете for x in y, вы выполняете итерацию всех дочерних элементов текущего элемента.

Итак, когда вы делаете это:

for Folder in Document:
    ...

вы не просто перебираете Folder элементов; Вы также перебираете name, open, Schema, Style и StyleMap (пока исключено пространство имен).

Вы можете по-прежнему получать то, что вы хотите, протестировав значение атрибута name и затем вернув текст элементов ...

for Document in root:
    for Folder in Document:
        for Placemark in Folder:
            for ExtendedData in Placemark:
                for SchemaData in ExtendedData:
                    for SimpleData in SchemaData:
                        if SimpleData.get("name") == "ID":
                            print(SimpleData.text)

но я бы не советовал.

Вместо этого рассмотрите возможность использования XPath 1.0 с функцией lxml xpath().

Это позволит вам нацеливаться на интересующие вас элементы.

В этом примере я собираюсь использовать полный путь вместо // сокращенного синтаксиса . Я также буду использовать предикат для проверки значения атрибута.

На первый взгляд вы можете подумать, что XPath для всех элементов SimpleData со значением атрибута name «ID» будет:

/kml/Document/Folder/Placemark/ExtendedData/SchemaData/SimpleData[@name='ID']

но это не тот случай. Если вы заметили, что в корневом элементе (kml) есть xmlns="http://www.opengis.net/kml/2.2". Это означает, что этот элемент и все его дочерние элементы находятся в пространстве имен по умолчанию http://www.opengis.net/kml/2.2 (если в этих элементах не указано иное).

Для иллюстрации, если вы добавили print(f"In Folder element \"{Folder.tag}\"...") в цикл for Folder in Document, вы увидите:

In Folder element "{http://www.opengis.net/kml/2.2}name"...
In Folder element "{http://www.opengis.net/kml/2.2}open"...
In Folder element "{http://www.opengis.net/kml/2.2}Schema"...
In Folder element "{http://www.opengis.net/kml/2.2}Style"...
In Folder element "{http://www.opengis.net/kml/2.2}StyleMap"...
In Folder element "{http://www.opengis.net/kml/2.2}Style"...
In Folder element "{http://www.opengis.net/kml/2.2}Folder"...

Существует несколько способов обработки пространств имен в lxml , но я предпочитаю объявлять их в словаре и передавать их с аргументом namespaces.

Вот полный пример ...

from lxml import etree

ns = {"kml": "http://www.opengis.net/kml/2.2"}

tree = etree.parse("test.kml")

for simple_data in tree.xpath("/kml:kml/kml:Document/kml:Folder/kml:Placemark/kml:ExtendedData/kml:SchemaData/kml:SimpleData[@name='ID']", namespaces=ns):
    print(simple_data.text)

Вывод на печать ...

FM2
FM3
0 голосов
/ 09 апреля 2019

По какой-то причине у меня возникли проблемы с допустимостью xml вашего kml_file, поэтому я сделал это следующим образом:

import lxml.html
tree  = lxml.html.fromstring(kml_file)
results = tree.xpath("//*[@name = 'ID']")

for i in results:
    if i.text:
        print(i.text)

Я не уверен, что это то, что вы ищете, но вывод:

FM2
FM3
...