Как разобрать файл, содержащий HTML, используя JSOUP? - PullRequest
0 голосов
/ 27 сентября 2018

У меня есть файлы, содержащие HTML, и я пытаюсь проанализировать этот файл и затем токенизировать текст тела.Я добиваюсь этого через:

docs = JSOUP.parse("myFile","UTF-8","");
System.out.println(docs.boy().text());

Вышеприведенные коды работают нормально, но проблема в том, что TEXT, который присутствует вне тегов html, без каких-либо тегов, также печатается как часть тегов body. Мне нужно найти способ остановить чтение этого текста вне тегов HTML. Справка, это чувствительный ко времени вопрос!

1 Ответ

0 голосов
/ 27 сентября 2018

Вы можете выбрать и удалить ненужные элементы в вашем документе.

 doc.select("body > :matchText").remove();

Вышеприведенный оператор удалит все текстовые узлы, которые являются прямыми потомками элемента body.Селектор: matchText довольно новый, поэтому, пожалуйста, убедитесь, что используете какую-то последнюю версию JSoup (1.11.3 определенно работает, но 1.10.2 нет).

Найдите больше информации о синтаксисе селектора на https://jsoup.org/cookbook/extracting-data/selector-syntax

...