С помощью tucuxi из существующего поста Java удаляет HTML из String без регулярных выражений Я создал метод, который будет анализировать любые основные теги HTML из строки. Однако иногда оригинальная строка содержит шестнадцатеричные символы html, такие как & # x00E9 (это ударение на e). Я начал добавлять функциональность, которая будет переводить эти экранированные символы в реальные символы.
Вы, вероятно, спрашиваете: почему бы не использовать регулярные выражения? Или сторонняя библиотека? К сожалению, я не могу, так как я работаю на платформе BlackBerry, которая не поддерживает регулярные выражения, и мне никогда не удавалось успешно добавить стороннюю библиотеку в мой проект.
Итак, я дошел до того, что любой & # x00E9 заменяется на "е". Мой вопрос сейчас заключается в том, как мне добавить фактическое «акцентированное е» в строку?
Вот мой код:
публичная статическая строка removeHTML (синопсис строки) {
char[] cs = synopsis.toCharArray();
String sb = new String();
boolean tag = false;
for (int i = 0; i < cs.length; i++) {
switch (cs[i]) {
case '<':
if (!tag) {
tag = true;
break;
}
case '>':
if (tag) {
tag = false;
break;
}
case '&':
char[] copyTo = new char[7];
System.arraycopy(cs, i, copyTo, 0, 7);
String result = new String(copyTo);
if (result.equals("é")) {
sb += "e";
}
i += 7;
break;
default:
if (!tag)
sb += cs[i];
}
}
return sb.toString();
}
Спасибо!