Как проверить XML-файл в соответствии со Схемой XSD, используя библиотеку Amara в Python? - PullRequest
5 голосов
/ 25 июля 2010

Высокая награда за следующее Q:

Здравствуйте, вот что я попробовал на Ubuntu 9.10 с использованием Python 2.6, Amara2 (кстати, test.xsd был создан с использованием инструмента xml2xsd):

g@spot:~$ cat test.xml; echo =====o=====; cat test.xsd; echo ==== 
o=====; cat test.py; echo =====o=====; ./test.py; echo =====o===== 
<?xml version="1.0" encoding="utf-8"?>==; ./test.py` > 
test.txttest.xsd; echo === 
<test>abcde</test> 
=====o===== 
<?xml version="1.0" encoding="UTF-8"?> 
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" 
elementFormDefault="qualified"> 
  <xs:element name="test" type="xs:NCName"/> 
</xs:schema> 
=====o===== 
#!/usr/bin/python2.6 
# I wish to validate an xml file against an external XSD schema. 
from amara import bindery, parse 
source = 'test.xml' 
schema = 'test.xsd' 
#help(bindery.parse) 
#doc = bindery.parse(source, uri=schema, validate=True) # These 2 seem 
to fail in the same way. 
doc = parse(source, uri=schema, validate=True) # So, what is the 
difference anyway? 
# 
=====o===== 
Traceback (most recent call last): 
  File "./test.py", line 14, in <module> 
    doc = parse(source, uri=schema, validate=True) 
  File "/usr/local/lib/python2.6/dist-packages/Amara-2.0a4-py2.6-linux- 
x86_64.egg/amara/tree.py", line 50, in parse 
    return _parse(inputsource(obj, uri), flags, 
entity_factory=entity_factory) 
amara.ReaderError: In file:///home/g/test.xml, line 2, column 0: 
Missing document type declaration 
g@spot:~$ 
=====o===== 

Итак, почему я вижу эту ошибку?Эта функция не поддерживается?Как я могу проверить XML-файл по XSD, имея возможность указать любой XSD-файл?Спасибо, и дайте мне знать, если у вас есть вопросы.

Ответы [ 2 ]

5 голосов
/ 09 октября 2010

Если вы открыты для использования другой библиотеки, кроме amara, попробуйте lxml .Он поддерживает то, что вы пытаетесь сделать довольно легко:

from lxml import etree

source_file = 'test.xml'
schema_file = 'test.xsd'

with open(schema_file) as f_schema:

    schema_doc = etree.parse(f_schema)
    schema = etree.XMLSchema(schema_doc)
    parser = etree.XMLParser(schema = schema)

    with open(source_file) as f_source:
        try:
            doc = etree.parse(f_source, parser)
        except etree.XMLSyntaxError as e:
            # this exception is thrown on schema validation error
            print e
1 голос
/ 13 октября 2010

Я рекомендую вам использовать атрибут noNamespaceSchemaLocation для привязки файла XML к схеме XSD. Тогда ваш XML-файл test.xml будет

<?xml version="1.0" encoding="utf-8"?>
<test xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
      xsi:noNamespaceSchemaLocation="test.xsd">abcde</test>

где файл test.xsd

<?xml version="1.0" encoding="utf-8"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
           elementFormDefault="qualified">
    <xs:element name="test" type="xs:NCName"/>
</xs:schema>

должен находиться в том же каталоге, что и test.xsd. Это общая методика ссылки на XML-схему из XML-файла, и она должна работать в Python.

Преимущество заключается в том, что вам не нужно знать файл схемы для каждого XML-файла . Он будет автоматически найден при разборе (etree.parse) файла XML.

...