html поиск и замена сохраняющих html тэгов - PullRequest
1 голос
/ 20 января 2011

Я ищу html-парсер на основе Java, который может искать и заменять текстовые html-теги. Этот вопрос задавался здесь раньше, но ответы, похоже, не попадают в цель. Есть несколько html-анализаторов, которые я скачал и написал простые программы, чтобы посмотреть, смогут ли они справиться с этой задачей. К ним относятся jsoup, Jericho, анализатор Java HTML и т. Д. Они могут выполнять поиск, но когда дело доходит до замены сохраняющих текст HTML-тегов, сделать это невозможно.

Я прочитал полную ветку для этих сообщений:

Как найти / заменить текст в html при сохранении тегов / структуры html

html поиск и замена на стороне сервера

Если сегодня такого парсера не существует, каков наилучший способ его реализации? Если вы уже сделали что-то подобное, можете поделиться кодом?

Ответы [ 2 ]

1 голос
/ 20 января 2011

Анализатор Caja использует libhtmlparser, синтаксический анализатор HTML5, который хорошо работает с супом тега, содержащим вложенные XML-поддеревья, создающие org.w3c.dom.DocumentFragment, и имеет средство визуализации, которое создает правильно сформированный HTML.

Код синтаксического анализатора имеет значение http://code.google.com/p/google-caja/source/browse/trunk/src/com/google/caja/parser/html/DomParser.java

Код рендерера: http://code.google.com/p/google-caja/source/browse/trunk/src/com/google/caja/parser/html/Nodes.java

0 голосов
/ 20 января 2011

Парсер Иерихона может вам помочь.Был вокруг навсегда и работает с искаженным HTML.http://jericho.htmlparser.net/docs/index.html

...