Для выполнения домашнего задания я должен написать программу, которая удаляет HTML-код с веб-сайта, а затем каким-то образом находит фразы на веб-сайте. Когда я говорю фразы, я имею в виду какой-то произвольный способ организации текста, чтобы слова, находящиеся в непосредственной близости друг от друга, были помещены в одну группу. Я знаю, это звучит действительно неясно, но в задании указано, как мы это делаем, зависит от нашей собственной интерпретации того, как находить «фразы».
В настоящее время у меня есть код, который выглядит следующим образом:
Document doc = Jsoup.connect("http://oracle.com/").get();
String html = doc.body().toString();
System.out.println(html);
Что даст мне приличную распечатку всех разных слов, которые появляются на какой-то веб-странице при разборе всего HTML.
Моя главная проблема в том, что я не могу придумать, как разобрать HTML-код, чтобы каким-то образом собрать эти произвольные группы (и я не знаю, какие критерии я могу использовать для произвольного формирования этих «групп»). слов).
Я знаю, что этот вопрос звучит ужасно, но я не знаю, как еще я могу это сформулировать, и у меня действительно нет идей относительно того, что я могу сделать. Задание, которое мне было дано, крайне неясно, и когда его попросили дать разъяснения, мой профессор просто сказал мне, чтобы я его интерпретировал сам. Мне было интересно, есть ли у кого-нибудь идеи о том, как разобрать html, чтобы слова, близкие друг к другу (возможно, внутри похожих html-тегов или что-то в этом роде), могли быть отфильтрованы подобно текущему выводу, который у меня есть сейчас, за исключением, может быть, после каждой фразы "там как новая строка или что-то, что я могу разобрать.
Спасибо за любые идеи или советы.