Question

Я хочу увидеть очищенный HTML, который мы получаем от HTMLCleaner.Я вижу, что есть метод с именем serialize на TagNode, однако я не знаю, как его использовать.У кого-нибудь есть пример кода для этого?

Спасибо, Найн

Rahul Sainani · Answer 1 · 29 июля 2012

Вот пример кода:

HtmlCleaner htmlCleaner = new HtmlCleaner();

TagNode root = htmlCleaner.clean(url);

HtmlCleaner.getInnerHtml(root);

String html = "<" + root.getName() + ">" + htmlCleaner.getInnerHtml(root) + "</" + root.getName() + ">";

luiss · Answer 2 · 06 мая 2013

Используйте подкласс org.htmlcleaner.XmlSerializer, например:

// get the element you want to serialize
HtmlCleaner cleaner     = new HtmlCleaner();
TagNode     rootTagNode = cleaner.clean(url);

// set up properties for the serializer (optional, see online docs)
CleanerProperties cleanerProperties = cleaner.getProperties();
cleanerProperties.setOmitXmlDeclaration(true);

// use the getAsString method on an XmlSerializer class
XmlSerializer xmlSerializer = new PrettyXmlSerializer(cleanerProperties);
String        html          = xmlSerializer.getAsString(rootTagNode);

Nicholas Liu · Answer 3 · 13 февраля 2018

XmlSerializer xmlSerializer = new PrettyXmlSerializer(cleanerProperties);

String html = xmlSerializer.getAsString(rootTagNode);

метод, описанный выше, имеет проблему, он обрезает содержимое в html-метке, например,

это пункт1.

 will become

это параграф 1.

и это функция getSingleLineOfChildren выполняет операцию обрезки.Поэтому, если мы выбираем данные с веб-сайта и хотим сохранить формат, подобный tuckunder.

PS: если метка html имеет метку дочерних элементов, родительская метка contexttn не будет обрезана, например,

1018 * сохранит пробел до "this is para1"

Получение очищенного HTML в тексте от HtmlCleaner

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получение очищенного HTML в тексте от HtmlCleaner

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы