Каков наилучший способ взять html с веб-страницы, убрать все теги HTML / код javascript / все, что не является отображаемым текстом, и, наконец, иметь возможность возвращать эту информацию с некоторыми разделителями для каждого фрагмента текста, который был упакован в другой тег HTML?
Сначала я попробовал использовать JSOUP:
Document doc = Jsoup.connect("http://en.wikipedia.org/wiki/Main_Page").get();
String html = doc.body().text();
Это хорошо для удаления всего нетекстового текста, но не возвращает мне никакого разделения.
В настоящее время я пытаюсь использовать регулярные выражения, такие как:
html.replaceAll("\\<.*?\\>", "")
Но я на самом деле не знаком с регулярными выражениями, и у меня проблемы с удалением javascript. Однако в этом методе есть новые строки, которые я могу использовать, чтобы отследить отдельные текстовые группы из разных упаковок тегов.
Мне было просто интересно, есть ли какой-нибудь простой способ сделать это, прежде чем я попробую больше регулярных выражений, чтобы заставить его работать.
Спасибо