извлечь абзацы из HTML-страницы - PullRequest
0 голосов
/ 16 марта 2011

Используя Jsoup, я хочу извлечь все абзацы со страницы HTML, т. Е. Все, что находится между <p> и </p>.

Как мне это сделать?

1 Ответ

3 голосов
/ 18 марта 2011

Можешь ли ты просто сделать:

myDocument.getElementsByTag('p') 

JSoup getElementsByTag

Затем вы можете перебрать возвращенные элементы и получить их data / text / ownText / все, что вы считаете наиболее подходящим для того, что вы хотите сделать.

JSoup Element.text ()

...