Как проверить документ XML с помощью компактной схемы RELAX NG в Python? - PullRequest
8 голосов
/ 10 августа 2009

Как проверить документ XML с помощью компактной схемы RELAX NG в Python?

Ответы [ 2 ]

16 голосов
/ 10 августа 2009

Как насчет использования lxml ?

Из документов:

>>> f = StringIO('''\
... <element name="a" xmlns="http://relaxng.org/ns/structure/1.0">
...  <zeroOrMore>
...     <element name="b">
...       <text />
...     </element>
...  </zeroOrMore>
... </element>
... ''')
>>> relaxng_doc = etree.parse(f)
>>> relaxng = etree.RelaxNG(relaxng_doc)

>>> valid = StringIO('<a><b></b></a>')
>>> doc = etree.parse(valid)
>>> relaxng.validate(doc)
True

>>> invalid = StringIO('<a><c></c></a>')
>>> doc2 = etree.parse(invalid)
>>> relaxng.validate(doc2)
False
0 голосов
/ 24 декабря 2018

Если вы хотите проверить синтаксис против Compact RelaxNG Синтаксис из командной строки, вы можете использовать pyjing из jingtrang модуля.

Он поддерживает .rnc файлов и отображает больше деталей, чем просто True или False. Например:

C:\>pyjing -c root.rnc invalid.xml
C:\invalid.xml:9:9: error: element "name" not allowed here; expected the element end-tag or element "bounds"

ПРИМЕЧАНИЕ: это оболочка Python для Java jingtrang, поэтому требуется наличие установленной Java.

Если вы хотите проверить синтаксис из Python, вы можете

  1. Используйте pytrang (из jingtrang wrapper) для преобразования "Compact RelaxNG" ( .rnc ) в XML RelaxNG ( .rng ) : pytrang root.rnc root.rng

  2. Используйте lxml для анализа преобразованного .rng файла, подобного этому: https://lxml.de/validation.html#relaxng

Это было бы что-то вроде этого:

>>> from lxml import etree
>>> from subprocess import call

>>> call("pytrang root.rnc root.rng")

>>> with open("root.rng") as f:
...    relaxng_doc = etree.parse(f)
>>> relaxng = etree.RelaxNG(relaxng_doc)

>>> valid = StringIO('<a><b></b></a>')
>>> doc = etree.parse(valid)
>>> relaxng.validate(doc)
True

>>> invalid = StringIO('<a><c></c></a>')
>>> doc2 = etree.parse(invalid)
>>> relaxng.validate(doc2)
False
...