Разбор специальных символов HTML - PullRequest
0 голосов
/ 02 ноября 2010

Я ищу класс Java для анализа всех специальных символов HTML.Я думаю, это обычная проблема, но я не могу сейчас найти быстрое решение.

Что я хочу получить:

input: thè --> output: thè
input: »
input: &lraquo;
...

Вы знаете что-нибудь полезное для меня?

Ответы [ 2 ]

0 голосов
/ 02 ноября 2010

Попробуйте служебный класс StringEscapeUtils.Проверьте документы для метода StringEscapeUtils.unescapeHtml ().

Документы здесь:

http://commons.apache.org/lang/api-release/org/apache/commons/lang/StringEscapeUtils.html

Скачать здесь:

http://commons.apache.org/lang/

0 голосов
/ 02 ноября 2010

Ты на нем гуглил? Первая ссылка на «синтаксический анализатор HTML-разметки Java» относится к экстрактор html текста

Кажется, это то, что тебе нужно.

Кроме того, вы можете изучить средства визуализации javax.swing.

...