Ошибка при загрузке строки как XML в Scala - PullRequest
0 голосов
/ 24 февраля 2019

У меня есть следующий XML (как String тип).

<article mdate="2017-06-06" key="journals/geb/SonmezU05">
<author>Tayfun S&ouml;nmez</author>
<author orcid="0000-0001-7693-1635">M. Utku &Uuml;nver</author>
<title>House allocation with existing tenants: an equivalence.</title>
<pages>153-185</pages>
<year>2005</year>
<volume>52</volume>
<journal>Games and Economic Behavior</journal>
<number>1</number>
<ee>https://doi.org/10.1016/j.geb.2004.04.008</ee>
<url>db/journals/geb/geb52.html#SonmezU05</url>
</article>

Когда я делаю следующее

XML.loadString()

, я получаю следующую ошибку:

org.xml.sax.SAXParseException; lineNumber: 2; columnNumber: 23; The entity "ouml" was referenced, but not declared.
    at com.sun.org.apache.xerces.internal.util.ErrorHandlerWrapper.createSAXParseException(ErrorHandlerWrapper.java:203)
    at com.sun.org.apache.xerces.internal.util.ErrorHandlerWrapper.fatalError(ErrorHandlerWrapper.java:177)
    at com.sun.org.apache.xerces.internal.impl.XMLErrorReporter.reportError(XMLErrorReporter.java:400)
    at com.sun.org.apache.xerces.internal.impl.XMLErrorReporter.reportError(XMLErrorReporter.java:327)
    at com.sun.org.apache.xerces.internal.impl.XMLScanner.reportFatalError(XMLScanner.java:1472)
    at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl.scanEntityReference(XMLDocumentFragmentScannerImpl.java:1902)
    at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl$FragmentContentDriver.next(XMLDocumentFragmentScannerImpl.java:3061)
    at com.sun.org.apache.xerces.internal.impl.XMLDocumentScannerImpl.next(XMLDocumentScannerImpl.java:602)
    at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl.scanDocument(XMLDocumentFragmentScannerImpl.java:505)
    at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(XML11Configuration.java:842)
    at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(XML11Configuration.java:771)
    at com.sun.org.apache.xerces.internal.parsers.XMLParser.parse(XMLParser.java:141)
    at com.sun.org.apache.xerces.internal.parsers.AbstractSAXParser.parse(AbstractSAXParser.java:1213)
    at com.sun.org.apache.xerces.internal.jaxp.SAXParserImpl$JAXPSAXParser.parse(SAXParserImpl.java:643)
    at com.sun.org.apache.xerces.internal.jaxp.SAXParserImpl.parse(SAXParserImpl.java:327)
    at scala.xml.factory.XMLLoader.loadXML(XMLLoader.scala:41)
    at scala.xml.factory.XMLLoader.loadXML$(XMLLoader.scala:37)
    at scala.xml.XML$.loadXML(XML.scala:60)
    at scala.xml.factory.XMLLoader.loadString(XMLLoader.scala:60)
    at scala.xml.factory.XMLLoader.loadString$(XMLLoader.scala:60)
    at scala.xml.XML$.loadString(XML.scala:60)

из-за строки:

<author>Tayfun S&ouml;nmez</author>

Попробовал преобразовать строку в InputStream следующим образом:

XML.load(new ByteArrayInputStream(xml.getBytes(StandardCharsets.UTF_8)))

Но проблема сохраняется.Давно боролся с этим.Пробовал с кучей вещей, доступных онлайн и ссылками на посты типа this

Но без прогресса.Любая помощь будет оценена.

Ответы [ 2 ]

0 голосов
/ 25 февраля 2019

Если &ouml; является единственной сущностью, которой не хватает, вы можете определить ее в строке с DOCTYPE, как предложено Kaustabh.

<!DOCTYPE article [
  <!ENTITY ouml "your redired value">
]>

Однако, если у вас много таких сущностей, вам лучшеот создания отдельного .dtd файла (скажем, "myxml.dtd") и ссылки на него в вашем XML.

<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE myxml SYSTEM "myxml.dtd">
<myxml>
    // The rest of your XML
</myxml>

Теперь, чтобы синтаксический анализатор мог найти файл, он должен быть помещен в путь проекта.Если вы связываете файл DTD с вашим приложением, вы можете поместить файл в папку resources, найти путь к этому файлу и заменить его в строке XML.

val dtdFilePath = getClass.getClassLoader.getResource("myxml.dtd").toURI

val xmlString = s"""
    <?xml version="1.0" encoding="ISO-8859-1"?>
    <!DOCTYPE myxml SYSTEM "$dtdFilePath">
    <myxml>
        // The rest of your XML
    </myxml>
    """

val xml = XML.loadString(xmlString)

Загрузкаиспользование файла ClassLoader обеспечивает доступ к файлу, даже если ваше приложение распространяется с использованием jar.

0 голосов
/ 24 февраля 2019

Я думаю, это потому, что ö не является стандартной сущностью xml.Это нормально в HTML, как понимает браузер, но не в XML.Добавление декларации в ваш файл может помочь.

<!DOCTYPE article [
  <!ENTITY ouml "your redired value">
]>

То же самое для Ü

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...