SAX XML Parser дает проблемы со специальными символами - PullRequest
0 голосов
/ 25 октября 2011

Прежде всего, я новичок в этом мире разработки java / android, так что держитесь подальше со мной, я мог бы задать некоторый относительный вопрос для новичков:).
В любом случае, я зацикливался на этой проблемепочти весь день, и я не могу найти какое-либо решение самостоятельно, и я искал в Интернете тонкие идеи, чтобы обойти эту проблему.

Я пытаюсь разработать приложение для Android, которое анализирует данные из внешнегоXML-файл.

Мой анализатор выглядит следующим образом:



    public class NewSAXHandler implements ContentHandler
    {
        private String DEBUGTAG = "NewSAXHandler";

        public static setNews news = null;
        boolean currentElement = false;
        String currentValue = null;



        public static setNews getNews()
        {
            return news;
        }

        public static void setNewsList(setNews news)
        {
            NewSAXHandler.news = news;
        }

        @Override
        public void startDocument() throws SAXException {
         // TODO Auto-generated method stub
        }

        @Override
        public void endDocument() throws SAXException {
         // TODO Auto-generated method stub
        }       

        @Override
        public void startElement(String uri, String localName, String qname, Attributes attr) throws SAXException
        {
            currentElement = true;
            if (localName.equalsIgnoreCase("channel"))
                news = new setNews();
                Log.d(DEBUGTAG, localName);
        }

        @Override
        public void endElement(String uri, String localName, String qName) throws SAXException
        {
            if (localName.equalsIgnoreCase("title"))
            {
                news.setHeadline(currentValue);
                Log.d(DEBUGTAG, localName);
                Log.d(DEBUGTAG, currentValue);          
            }
            else if (localName.equalsIgnoreCase("pubdate"))
            {
                news.setDate(currentValue);
                Log.d(DEBUGTAG, localName);
                Log.d(DEBUGTAG, currentValue);          
            }
        }

        @Override
        public void characters(char[] ch, int start, int length) throws SAXException
        {   
            if (currentElement)
            {
                currentValue = new String(ch, start, length).replaceAll("\\r\\n|\\r|\\n", " ");
                currentElement = false;
            }
        }

        @Override
        public void ignorableWhitespace(char[] ch, int start, int length)throws SAXException
        {

        }

        @Override
        public void endPrefixMapping(String prefix) throws SAXException
        {

        }

        @Override
        public void processingInstruction(String target, String data)throws SAXException
        {

        }

        @Override
        public void setDocumentLocator(Locator locator)
        {

        }

        @Override
        public void skippedEntity(String name) throws SAXException
        {

        }

        @Override
        public void startPrefixMapping(String prefix, String uri)throws SAXException
        {

        }   
    } 

И файл XML анализируется с:

http://www.hltv.org/news.rss.php

Вот журнал, когда я запускаю приложение:



    10-24 20:03:32.901: D/NewSAXHandler(975): rss
    10-24 20:03:32.901: D/NewSAXHandler(975): channel
    10-24 20:03:32.901: D/NewSAXHandler(975): title
    10-24 20:03:32.901: D/NewSAXHandler(975): title
    10-24 20:03:32.901: D/NewSAXHandler(975): www.HLTV.org News
    10-24 20:03:32.901: D/NewSAXHandler(975): link
    10-24 20:03:32.912: D/NewSAXHandler(975): description
    10-24 20:03:32.912: D/NewSAXHandler(975): item
    10-24 20:03:32.912: D/NewSAXHandler(975): title
    10-24 20:03:32.912: D/NewSAXHandler(975): title
    10-24 20:03:32.912: D/NewSAXHandler(975): http://www.hltv.org/HLTV.org News
    10-24 20:03:32.912: D/NewSAXHandler(975): Photos: Final ones from ESWC
    10-24 20:03:32.912: D/NewSAXHandler(975): link
    10-24 20:03:32.912: D/NewSAXHandler(975): pubDate
    10-24 20:03:32.922: D/NewSAXHandler(975): pubDate
    10-24 20:03:32.922: D/NewSAXHandler(975): http://www.hltv.org/news/7692-photos-final-ones-from-eswcMon, 24 Oct 2011 21:17:00 +0200
    10-24 20:03:32.922: D/NewSAXHandler(975): item
    10-24 20:03:32.922: D/NewSAXHandler(975): title
    10-24 20:03:32.932: W/System.err(975): org.apache.harmony.xml.ExpatParser$ParseException: At line 16, column 23: not well-formed (invalid token)
    10-24 20:03:32.942: W/System.err(975):  at org.apache.harmony.xml.ExpatParser.parseFragment(ExpatParser.java:520)
    10-24 20:03:32.952: W/System.err(975):  at org.apache.harmony.xml.ExpatParser.parseDocument(ExpatParser.java:479)
    10-24 20:03:32.952: W/System.err(975):  at org.apache.harmony.xml.ExpatReader.parse(ExpatReader.java:318)
    10-24 20:03:32.952: W/System.err(975):  at org.apache.harmony.xml.ExpatReader.parse(ExpatReader.java:275)
    10-24 20:03:32.962: W/System.err(975):  at jj.rssReader.hltvorg.Hltvorg.onCreate(Hltvorg.java:49)
    10-24 20:03:32.962: W/System.err(975):  at android.app.Instrumentation.callActivityOnCreate(Instrumentation.java:1047)
    10-24 20:03:32.962: W/System.err(975):  at android.app.ActivityThread.performLaunchActivity(ActivityThread.java:1611)
    10-24 20:03:32.971: W/System.err(975):  at android.app.ActivityThread.handleLaunchActivity(ActivityThread.java:1663)
    10-24 20:03:32.971: W/System.err(975):  at android.app.ActivityThread.access$1500(ActivityThread.java:117)
    10-24 20:03:32.981: W/System.err(975):  at android.app.ActivityThread$H.handleMessage(ActivityThread.java:931)
    10-24 20:03:32.981: W/System.err(975):  at android.os.Handler.dispatchMessage(Handler.java:99)
    10-24 20:03:32.981: W/System.err(975):  at android.os.Looper.loop(Looper.java:123)
    10-24 20:03:32.992: W/System.err(975):  at android.app.ActivityThread.main(ActivityThread.java:3683)
    10-24 20:03:32.992: W/System.err(975):  at java.lang.reflect.Method.invokeNative(Native Method)
    10-24 20:03:33.002: W/System.err(975):  at java.lang.reflect.Method.invoke(Method.java:507)
    10-24 20:03:33.002: W/System.err(975):  at com.android.internal.os.ZygoteInit$MethodAndArgsCaller.run(ZygoteInit.java:839)
    10-24 20:03:33.002: W/System.err(975):  at com.android.internal.os.ZygoteInit.main(ZygoteInit.java:597)
    10-24 20:03:33.013: W/System.err(975):  at dalvik.system.NativeStart.main(Native Method)

Похоже, ошибка исходит от символа ´.
Я не вижу кодировку, поскольку ее нет в файле XML, но я предполагаю, что это UTF-8.
Я также пытался использовать StringBuilder для хранения каждого символа без какой-либо удачи.

Я думал, что анализатор XML сам преобразует эти специальные символы, но, похоже, ему не нравятся em.

Если я попытаюсь разобрать этот файл:

http://www.hltv.org/forum.rss.php

Тогда это работает лучше.

У кого-нибудь есть какие-нибудь новые идеи?

** Если вам больше нужен мой код, скажите, пожалуйста:)

С наилучшими пожеланиями,
Джеспер

1 Ответ

2 голосов
/ 25 октября 2011

Проблема была в кодировке, как сказал Филипп выше.

Я только что добавил следующее в мой код:

InputSource is = new InputSource(url.openStream());
is.setEncoding("ISO-8859-1");
Reader.parse(is);
...