SAX-парсер игнорирует CDATA - HTML-теги - PullRequest
2 голосов
/ 05 сентября 2010

У меня есть простое приложение для чтения RSS для Android, в котором я использую парсер SAX для получения данных.Все записи выбираются правильно, кроме элемента "desc".Структура XML выглядит следующим образом.

<item>
<title>Boilermaker Jazz Band</title>
<link>http://eventur.sis.pitt.edu/event.jsp?e_id=1805</link>
<type>Music Concerts</type>
<s_time>09-02-2010 05:00 PM&nbsp;</s_time>
<venue>Backstage Bar at Theater Square</venue>
<venue_addr/>
<desc>
<p><span style="font-family: arial, geneva, sans-serif; font-size: 11px;">
<p style="font-family: Arial, Helvetica, sans-serif; max-width: 600px; margin-top: 8px; margin-right: 0px; margin-bottom: 8px; margin-left: 0px; font-size: 9pt; vertical-align: top;">Authentic American Jazz, Ragtime and Swing The Boilermaker Jazz Band is an ecstatically fun band performing authentic hot jazz, ragtime, and swing. The group has ....</desc>
−
<img_link>
http://eventur.sis.pitt.edu/images/Boilheadshot1.jpg
</img_link>
</item>

Данные из всех полей извлекаются целиком.Но когда дело доходит до <desc>, метод «символов» просто выбирает «<» и игнорирует все остальное.Может кто-нибудь, пожалуйста, посоветуйте, что можно сделать. </p>

1 Ответ

6 голосов
/ 05 сентября 2010

Ваш элемент <desc> содержит другую (недопустимую) структуру XML. В вашем примере startElement() будет запущен для <p>, затем <span>, затем еще один <p>. Если вы хотите извлечь только текст, вы можете объединить то, что метод characters() возвращает для всех дочерних элементов <desc>, пока не получите уведомление о конце элемента <desc> с помощью endElement().

Что-то вроде

private boolean isDescStarted = false;

private StringBuilder textDesc = new StringBuilder();

public void startElement(String uri, String name, String qName, Attributes atts) {
   if(name.equals("desc") {isDescStarted = true;}
}

public void endElement(String uri, String name, String qName) {
   if(name.equals("desc") {
      isDescStarted = false;
      String fullTextDesc = textDesc.toString(); // do whatever you want with this string now
   }
}

public void characters(char[] buf, int offset, int length) {
   if (isDescStarted) {
      textDesc.append(new String(buf, offset, length));
   }
}
...