Как найти ошибку после MalformedByteSequenceException, выданного анализатором XML - PullRequest
2 голосов
/ 26 сентября 2011

Я получаю исключение MalformedByteSequenceExe при синтаксическом анализе файла XML.

Мое приложение позволяет внешним клиентам отправлять файлы XML. Они могут использовать любую поддерживаемую кодировку, но большинство указывают ...encoding="UTF-8"... в верхней части файла в соответствии с предоставленными им примерами. Но тогда некоторые будут использовать windows-1252 для кодирования своих данных, что вызовет исключение MalformedByteSequenceException для символов, отличных от ascii.

Я хочу использовать синтаксический анализатор XML для идентификации кодировки файла и декодирования файла, поэтому я не хочу выполнять предварительный шаг тестирования кодировки или преобразования InputStream в Reader. Я чувствую, что синтаксический анализатор XML должен обработать этот шаг.

Несмотря на то, что я объявил ValidationEventHandler, он не вызывается при исключении MalformedByteSequenceException.

Есть ли способ заставить Unmarshaller сообщить местоположение в файле, где произошла ошибка?

Вот мой код Java:

InputStream input = ...
JAXBContext jc = JAXBContext.newInstance(MyClass.class.getPackage().getName());
Unmarshaller unmarshaller = jc.createUnmarshaller();
SchemaFactory sf = SchemaFactory.newInstance(javax.xml.XMLConstants.W3C_XML_SCHEMA_NS_URI);
Source source = new StreamSource(getClass().getResource("my.xsd").toExternalForm());
Schema schema = sf.newSchema(sources);
unmarshaller.setSchema(schema);
ValidationEventHandler handler = new MyValidationEventHandler();
unmarshaller.setEventHandler(handler);
MyClass myClass = (MyClass) unmarshaller.unmarshal(input);

и полученная трассировка стека

javax.xml.bind.UnmarshalException
 - with linked exception:
[com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 2 of 4-byte UTF-8 sequence.]
        at com.sun.xml.internal.bind.v2.runtime.unmarshaller.UnmarshallerImpl.unmarshal0(UnmarshallerImpl.java:202)
        at com.sun.xml.internal.bind.v2.runtime.unmarshaller.UnmarshallerImpl.unmarshal(UnmarshallerImpl.java:173)
        at javax.xml.bind.helpers.AbstractUnmarshallerImpl.unmarshal(AbstractUnmarshallerImpl.java:137)
        at javax.xml.bind.helpers.AbstractUnmarshallerImpl.unmarshal(AbstractUnmarshallerImpl.java:184)
        at (my code)
Caused by: com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 2 of 4-byte UTF-8 sequence.
        at com.sun.org.apache.xerces.internal.impl.io.UTF8Reader.invalidByte(UTF8Reader.java:684)
        at com.sun.org.apache.xerces.internal.impl.io.UTF8Reader.read(UTF8Reader.java:470)
        at com.sun.org.apache.xerces.internal.impl.XMLEntityScanner.load(XMLEntityScanner.java:1742)
        at com.sun.org.apache.xerces.internal.impl.XMLEntityScanner.scanContent(XMLEntityScanner.java:916)
        at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl$FragmentContentDriver.next(XMLDocumentFragmentScannerImpl.java:2788)
        at com.sun.org.apache.xerces.internal.impl.XMLDocumentScannerImpl.next(XMLDocumentScannerImpl.java:648)
        at com.sun.org.apache.xerces.internal.impl.XMLNSDocumentScannerImpl.next(XMLNSDocumentScannerImpl.java:140)
        at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl.scanDocument(XMLDocumentFragmentScannerImpl.java:511)
        at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(XML11Configuration.java:808)
        at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(XML11Configuration.java:737)
        at com.sun.org.apache.xerces.internal.parsers.XMLParser.parse(XMLParser.java:119)
        at com.sun.org.apache.xerces.internal.parsers.AbstractSAXParser.parse(AbstractSAXParser.java:1205)
        at com.sun.org.apache.xerces.internal.jaxp.SAXParserImpl$JAXPSAXParser.parse(SAXParserImpl.java:522)
        at com.sun.xml.internal.bind.v2.runtime.unmarshaller.UnmarshallerImpl.unmarshal0(UnmarshallerImpl.java:200)
        ... 51 more

1 Ответ

1 голос
/ 27 сентября 2011

Я не тестировал, но я бы

  • использовал SAXSource (javax.xml.transform.sax.SAXSource) вместо StreamSource
  • , связанного с SAXSource, моим собственнымреализация org.xml.sax.ErrorHandler (SAXSource.getXMLReader (). setErrorHandler)

Подобным образом я буду получать информацию о SAXParseException, в котором есть местоположение ошибки синтаксического анализа.

...