Очистить данные HTML - PullRequest
       3

Очистить данные HTML

2 голосов
/ 13 сентября 2010

Я получаю данные из разных каналов RSS / ATOM, и иногда получаемые мной данные HTML содержат теги HTML, но у них нет закрытых тегов или других проблем, и это портит макет страницы / стиль.Кое-что есть имя класса / идентификатор столкновения.Можно ли как-нибудь его санировать?

Если кто-нибудь может подсказать мне надежную реализацию Javascript / Java.

Ответы [ 2 ]

1 голос
/ 13 сентября 2010

Вы можете попробовать JTidy .

JTidy можно использовать как инструмент для очистки искаженного и дефектного HTML.

Другой вариант - HTML Cleaner

HTML, найденный в Интернете, обычно грязный, плохо сформирован и не подходит для дальнейшей обработки.Для любого серьезного потребления таких документов, необходимо сначала навести порядок и навести порядок в тегах, атрибутах и ​​обычном тексте.Для данного HTML-документа HtmlCleaner переупорядочивает отдельные элементы и создает правильно сформированный XML.По умолчанию он следует аналогичным правилам, которые большинство веб-браузеров используют для создания объектной модели документа.Однако пользователь может предоставить пользовательский тег и набор правил для фильтрации и балансировки тегов.

0 голосов
/ 13 сентября 2010

Я использовал NekoHTML с большим успехом.Это всего лишь тонкий слой над анализатором Apache, который переводит его в режим исправления ошибок, который является отличной архитектурой, так как каждый раз, когда Apache становится лучше, Neko тоже.И нет большого количества дополнительного кода.

...