Обработка специальных объектов, таких как & nbsp;, & фунт;в HtmlCleaner - PullRequest
0 голосов
/ 30 ноября 2010

Я использую библиотеку HtmlCleaner для извлечения html-содержимого.Он работает честно, но с небольшими ограничениями.

Он не может обрабатывать специальные символы, такие как £, кавычки и т. Д. Например, для URL: http://www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html, При указании xpath для цены, это дает мне "фунт;»вместо £

Есть ли какое-либо свойство, которое мы можем установить в htmlcleaner для обработки этого или любого другого решения.

Спасибо

Jitendra

Ответы [ 3 ]

4 голосов
/ 30 ноября 2010

Нет, я не верю, что HtmlCleaner может это сделать. Тем не менее, вы можете использовать Apache Commons StringEscapeUtils , чтобы "удалить" HTML-код, например:

StringEscapeUtils.unescapeHtml("£679.00");

будет производить £679.00.

Вместо HtmlCleaner я бы порекомендовал вам попробовать JSoup .

1 голос
/ 08 февраля 2012

Используемая мной версия htmlcleaner - 2.2, и org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true) полезна для меня. В то время как я должен использовать string.replace(" ", " "), чтобы сделать HTML-контент, я получил полностью прав.

0 голосов
/ 20 декабря 2011

Это теперь можно сделать через org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR (true).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...