Я хочу извлечь текстовые блоки из HTML-страницы, и я использую шаблон для этого. Он отлично работает для одного текста на странице, но на некоторых страницах, таких как блоги, на странице несколько текстов.
Я хочу извлечь все тексты, но идентифицируя каждый как отдельный текст, а не только один.
Есть какая-нибудь библиотека, которая может это сделать?
РЕДАКТИРОВАТЬ : Я использую Jsoup для разбора HTML, но я не хочу выполнять синтаксический анализ, а извлечение информации, как это происходит на страницах. Я хочу проверить другой подобный инструмент.