Question

Я анализирую какой-то файл с помощью XmlPullParser в Android. Все идет хорошо, за исключением некоторых специальных символов HTML в тексте, подобных этому:

&iacute; it should be í
&eacute; it should be é

, но они отсутствуют в извлекаемых мной строках:

cami&oacute;n it should be camión  and I get camin

и то же самое с другими подобными символами.

Я не знаю точно, где проблема, если она находится в xmlpullparser.getText () или в Java String

Какя могу решить это?

butelo · Answer 1 · 01 марта 2012

Я нашел решение, но оно дорогое с точки зрения размера приложения и производительности, поэтому, пожалуйста, дайте мне знать, если что-то не так, или вы можете сделать это лучше или меньше шагов.

сначала получить строку из файла. псевдокод:
```
 String content = File to string;
```

http://snippets.dzone.com/posts/show/1335

Импортируйте commons-lang3-3.1.jar в ваш проект из Apache commons. Подайте эту строку для символов hesml unescape:
```
 String output =   StringEscapeUtils.unescapeHtml4(content);
```
Отправьте эту неэкранированную строку в ваш XmlPullParser:
```
xpp.setInput( new StringReader (output) );
```

И это все.

Renate · Answer 2 · 24 марта 2012

Проблема в том, что обычный XML не имеет HTML-сущностей. & Eacute; не определен для XML. Вы должны либо использовать анализатор HTML (как в приведенных выше предложениях), либо сами переводить сущности в XmlPullParser.

Ваш цикл должен был бы выполняться nextToken (), а не next (); Вы должны будете ответить на XmlPullParser.ENTITY_REF

Конечно, если вы можете изменить свой входной файл для кодирования символов непосредственно в utf-8 или iso-8859-1 вместо использования сущностей HTML, это тоже сработает.

Giulio Piancastelli · Answer 3 · 01 марта 2012

Что касается эскейпинга HTML, кажется, что кто-то использовал Html.fromHtml, который встроен в платформу Android.Применительно к размеру приложения это может быть правильным решением;однако с точки зрения производительности вам, возможно, потребуется немного профилировать, поскольку очевидно, что эскапинг Apache Commons намного быстрее, чем встроенная альтернатива Android.

недостающие символы с xmlpullparser

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

недостающие символы с xmlpullparser

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы