У меня есть файлы, содержащие HTML, и я пытаюсь проанализировать этот файл и затем токенизировать текст тела.Я добиваюсь этого через:
docs = JSOUP.parse("myFile","UTF-8","");
System.out.println(docs.boy().text());
Вышеприведенные коды работают нормально, но проблема в том, что TEXT, который присутствует вне тегов html, без каких-либо тегов, также печатается как часть тегов body. Мне нужно найти способ остановить чтение этого текста вне тегов HTML. Справка, это чувствительный ко времени вопрос!