Даже с ErrorHandler, почему проверка схемы заканчивается после первой ошибки? - PullRequest
0 голосов
/ 27 октября 2019

Я работаю над проверкой схемы. Цель состоит в том, чтобы взять XSD-файл и проверить входящий документ по нему. Если есть ошибки, я хочу зафиксировать их все.

Я получаю только первую ошибку в ErrorHandler, а затем обработка заканчивается. В Интернете много примеров того, как люди задают этот же вопрос, и кажется, что ответ всегда - то, что я делаю (создайте собственный обработчик ошибок).

Далее в документации по интерфейсу ErrorHandler сказано этоо том, как метод ошибки должен работать:

/**
 * <p>The SAX parser must continue to provide normal parsing
 * events after invoking this method: it should still be possible
 * for the application to process the document through to the end.
 * If the application cannot do so, then the parser should report
 * a fatal error even if the XML recommendation does not require
 * it to do so.</p>
 */

Обратите внимание, что это пример Java 13, но нет причин, по которым это действительно нужно (кроме краткого определения текста XML).

private String drugValidationSchema = """
                    <?xml version="1.0" encoding="UTF-8"?>
                    <schema xmlns="http://www.w3.org/2001/XMLSchema"
                    targetNamespace="https://www.company.com/Drug"
                    xmlns:apins="https://www.company.com/Drug" elementFormDefault="qualified">

                        <element name="drugRequest" type="apins:drugRequest"></element>

                        <element name="drugResponse" type="apins:drugResponse"></element>

                        <complexType name="drugRequest">
                            <sequence>
                                <element name="id" type="int"></element>
                            </sequence>
                        </complexType>

                        <complexType name="drugResponse">
                            <sequence>
                                <element name="id" type="int"></element>
                                <element name="drugClass" type="string"></element>
                                <element name="drugName" type="string"></element>
                            </sequence>
                        </complexType>
                    </schema>
                    """;

// This document has 3 errors in it based on the schema above:
// 1) idx instead of id
// 2) dugClass instead of drugClass
// 3) dugName instead of drugName
private String badDrugResponseXml = """
                    <?xml version="1.0" encoding="UTF-8"?>
                    <apins:drugResponse xmlns:apins="https://www.company.com/Drug" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="https://www.company.com/Drug Drug.xsd ">
                      <apins:idx>1</apins:idx>
                      <apins:dugClass>opioid</apins:dugClass>
                      <apins:dugName>Buprenorphine</apins:dugName>
                    </apins:drugResponse>
                    """;

/**
 * This test does nothing but send the desired files into the validation
 * process.  The goal is for the validation process to output 3 errors.
 * For reasons I don't understand, it will only output the first one and
 * stop the processing.
 */
@Test
void testWithValidator() {
    System.out.println("Test an entry with multiple errors: " + validateXMLSchema(drugValidationSchema, badDrugResponseXml));
    Assertions.assertTrue(true);
}


/**
 * This validator process seems to always stop after the first error is encountered.
 *
 * @param xsdPath   the actual XSD content as String
 * @param xmlPath   the actual xml document text as String.
 * @return          True if there are no errors, false otherwise. (planning to return details)
 */
static boolean validateXMLSchema(String xsdPath, String xmlPath){

    try {
        SchemaFactory factory = SchemaFactory.newInstance(XMLConstants.W3C_XML_SCHEMA_NS_URI);

        Schema schema = factory.newSchema(new StreamSource(new StringReader(xsdPath)));

        Validator validator = schema.newValidator();

        List<Exception> exceptions = new ArrayList<>();
        // Add a custom handler to the validator.  The goal is to continue processing
        // the document so that ALL errors are captured.
        validator.setErrorHandler(new ErrorHandler() {
            @Override
            public void warning(SAXParseException exception) {
                exceptions.add(exception);
            }

            @Override
            public void fatalError(SAXParseException exception) {
                exceptions.add(exception);
            }

            @Override
            public void error(SAXParseException exception) {
                exceptions.add(exception);
            }
        });

        validator.validate(new StreamSource(new StringReader(xmlPath)));

        if (exceptions.size() > 0) {
            for (Exception ex : exceptions) {
                System.out.println("Error found: " + ex.getMessage());
            }
        }else {
            System.out.println("No errors.");
        }
    } catch (SAXException | IOException e) {
        System.out.println("Exception: "+e.getMessage());
        return false;
    }
    return true;
}

Как показывают комментарии, при отладке ясно, что первая ошибка сообщается через результаты пользовательского обработчика ошибок, но обработка не продолжается, и обнаруживаются следующие две ошибки.

1 Ответ

0 голосов
/ 02 ноября 2019

Ответ не простой, но потерпите меня ...

Я работал с командой, которая внедрила полностью совместимый проверяющий синтаксический анализатор XML. Я спросил у них именно эту особенность. Они объяснили, что неправильное / неожиданное имя тега (одно и то же) может быть вызвано двумя ситуациями:

a) неверное имя тега в правильной позиции в xsd

b) правильное имя тега внеправильная позиция в xsd

Когда люди просят об этой функции, они почти всегда думают о сценарии а). XSD очень прост (очень ограниченная изменчивость в XML-документе), и для читателя «очевидно», что неожиданное имя тега является опечаткой. К сожалению, спецификация XSD допускает много типов изменчивости. Вы можете иметь xs: any (подстановочные знаки), группы выбора, неупорядоченные группы, необязательные элементы, расширения сложного типа с различными типами ограничений и т. Д. Если XSD очень «открыт», то вовсе не очевидно, что неожиданное имя тега былопростая опечатка. Попытка продолжения будет бессмысленной в общем случае , потому что анализатор XML не будет знать, откуда продолжить анализ.

Существует только одна ситуация, когда процессор XML может выдать ошибку проверкии безопасно продолжить анализ при любых обстоятельствах . Если простое значение тега / атрибута не соответствует ограничениям xsd: facet, можно сообщить об ошибке и продолжить. Синтаксический анализатор не потерял свой «контекст» в XSD, поскольку все имена элементов были успешно сопоставлены.

Вы можете испытать искушение сослаться на свой пример и сказать «но в моем случае парсинг может быть безопасным». Продолжить'. Вы были бы правы, но я не знаю ни одного парсера XML, который смог бы различить ситуации «безопасно продолжить» и «небезопасно продолжить» для несопоставленных имен тегов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...