Получить закодированный HTML-контент только из URL в Java - PullRequest
1 голос
/ 29 марта 2011

Есть ли в JAVA библиотека, в которой я могу кодировать HTML, но только контент?

У меня есть

<div>Tél</div>

, и я хочу только

<div>T&eacute;l</div>

вместо

&lt;div&gt;T&eacute;l<&lt;/div&gt;

мне нужна эта библиотека для кодирования всего HTML.Я пробовал библиотеку JSoup, но в ней есть ошибки при обработке некоторых объектов.

Спасибо

1 Ответ

1 голос
/ 29 марта 2011

Никогда не стоит разбирать HTML с помощью регулярных выражений, это рецепт катастрофы.

Итак, сначала посмотрите на эти вопросы и ответы для разбора HTML в Java: Разбор Java HTML

Как только вы сможете проанализировать HTML и получить внутренний текст HTML, вы можете закодировать HTML одним из следующих способов: Существует ли класс JDK для кодирования HTML (но не кодирования URL)?

...