HtmlToPlainText больше не включен в jsoup - PullRequest
0 голосов
/ 05 декабря 2018

Я конвертирую HTML в обычный текст и использую jsoup's HtmlToPlainText.Однако в последних выпусках jsoup этот код больше не включается, поскольку он предположительно предоставляется только в качестве примера (хотя HtmlToPlainText javadoc по-прежнему говорит, что он является частью jsoup.jar).

Otherчем вручную скопировать или упаковать этот код в качестве дополнительной библиотеки, что еще я могу использовать вместо этого?Есть ли альтернатива, включенная в jsoup или хотя бы основанная на jsoup?

Ответы [ 2 ]

0 голосов
/ 02 мая 2019

Класс HtmlToPlainText является примером использования библиотеки Jsoup.Если вы хотите использовать его, вы должны скопировать его исходный код в ваш собственный проект.Все ссылочные классы включены в библиотеку Jsoup, вам нужен только один этот класс.

Впоследствии вы можете использовать его следующим образом:

Document doc = Jsoup.parse(html);
String text = new HtmlToPlaintext().getPlainText(doc.body());

Копирование кода в ваш проект имеет то преимущество, чтоВы можете изменить класс HtmlToPlainText и адаптировать его к вашим потребностям, например, если ссылки отображаются с их URL или нет.

0 голосов
/ 06 декабря 2018

Мы недавно перешли из JSoup в Иерихон

return new Source(html).getRenderer().setMaxLineLength(Integer.MAX_VALUE).setNewLine(null).toString();

С этой зависимостью maven

<dependency>
    <groupId>net.htmlparser.jericho</groupId>
    <artifactId>jericho-html</artifactId>
    <version>3.4</version>
</dependency>
...