Question

Я использую библиотеку HtmlCleaner для извлечения html-содержимого.Он работает честно, но с небольшими ограничениями.

Он не может обрабатывать специальные символы, такие как £, кавычки и т. Д. Например, для URL: http://www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html, При указании xpath для цены, это дает мне "фунт;»вместо £

Есть ли какое-либо свойство, которое мы можем установить в htmlcleaner для обработки этого или любого другого решения.

Спасибо

Jitendra

dogbane · Answer 1 · 30 ноября 2010

Нет, я не верю, что HtmlCleaner может это сделать. Тем не менее, вы можете использовать Apache Commons StringEscapeUtils , чтобы "удалить" HTML-код, например:

StringEscapeUtils.unescapeHtml("&pound;679.00");

будет производить £679.00.

Вместо HtmlCleaner я бы порекомендовал вам попробовать JSoup .

windy26205 · Answer 2 · 08 февраля 2012

Используемая мной версия htmlcleaner - 2.2, и org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true) полезна для меня. В то время как я должен использовать string.replace(" ", " "), чтобы сделать HTML-контент, я получил полностью прав.

user1108555 · Answer 3 · 20 декабря 2011

Это теперь можно сделать через org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR (true).

Обработка специальных объектов, таких как & nbsp;, & фунт;в HtmlCleaner

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обработка специальных объектов, таких как & nbsp;, & фунт;в HtmlCleaner

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы