Question

У меня есть документ XML, который я пытаюсь проанализировать с помощью Etree.lxml

<Envelope xmlns="http://www.example.com/zzz/yyy">
  <Header>
    <Version>1</Version>
  </Header>
  <Body>
    some stuff
  <Body>
<Envelope>

Мой код:

path = "path to xml file"
from lxml import etree as ET
parser = ET.XMLParser(ns_clean=True)
dom = ET.parse(path, parser)
dom.getroot()

Когда я пытаюсь получить dom.getroot (), я получаю:

<Element {http://www.example.com/zzz/yyy}Envelope at 28adacac>

Однако я хочу только:

<Element Envelope at 28adacac>

Когда я делаю

dom.getroot().find("Body")

Я ничего не получил. Однако когда я

dom.getroot().find("{http://www.example.com/zzz/yyy}Body")

Я получаю результат.

Я думал, что передача ns_clean = True парсеру предотвратит это.

Есть идеи?

unutbu · Answer 1 · 23 ноября 2010

import io
import lxml.etree as ET

content='''\
<Envelope xmlns="http://www.example.com/zzz/yyy">
  <Header>
    <Version>1</Version>
  </Header>
  <Body>
    some stuff
  </Body>
</Envelope>
'''    
dom = ET.parse(io.BytesIO(content))

Вы можете найти узлы с поддержкой пространства имен, используя метод xpath:

body=dom.xpath('//ns:Body',namespaces={'ns':'http://www.example.com/zzz/yyy'})
print(body)
# [<Element {http://www.example.com/zzz/yyy}Body at 90b2d4c>]

Если вы действительно хотите удалить пространства имен, вы можете использовать XSL-преобразование:

# http://wiki.tei-c.org/index.php/Remove-Namespaces.xsl
xslt='''<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="xml" indent="no"/>

<xsl:template match="/|comment()|processing-instruction()">
    <xsl:copy>
      <xsl:apply-templates/>
    </xsl:copy>
</xsl:template>

<xsl:template match="*">
    <xsl:element name="{local-name()}">
      <xsl:apply-templates select="@*|node()"/>
    </xsl:element>
</xsl:template>

<xsl:template match="@*">
    <xsl:attribute name="{local-name()}">
      <xsl:value-of select="."/>
    </xsl:attribute>
</xsl:template>
</xsl:stylesheet>
'''

xslt_doc=ET.parse(io.BytesIO(xslt))
transform=ET.XSLT(xslt_doc)
dom=transform(dom)

Здесь мы видим, что пространство имен было удалено:

print(ET.tostring(dom))
# <Envelope>
#   <Header>
#     <Version>1</Version>
#   </Header>
#   <Body>
#     some stuff
#   </Body>
# </Envelope>

Теперь вы можете найти узел Body следующим образом:

print(dom.find("Body"))
# <Element Body at 8506cd4>

dusan · Answer 2 · 23 ноября 2010

Попробуйте использовать Xpath:

dom.xpath("//*[local-name() = 'Body']")

Взято (и упрощено) с этой страницы , в разделе "Метод xpath ()"

Andrei · Answer 3 · 01 июля 2011

Последнее решение из https://bitbucket.org/olauzanne/pyquery/issue/17 может помочь вам без особых усилий избежать пространств имен

применить xml.replace(' xmlns:', ' xmlnamespace:') к вашему xml перед использованием pyquery, чтобы lxml игнорировал пространства имен

В вашем случае попробуйте xml.replace(' xmlns="', ' xmlnamespace="').Однако вам может понадобиться что-то более сложное, если строка ожидается и в телах.

robert · Answer 4 · 23 ноября 2010

Вы показываете результат вызова repr ().Когда вы программно перемещаетесь по дереву, вы можете просто игнорировать пространство имен.

lxml etree xmlparser удаляет нежелательное пространство имен

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

lxml etree xmlparser удаляет нежелательное пространство имен

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы