Если документ XHTML, вы можете проанализировать его с помощью любого анализатора XML.E4X, вероятно, прекрасно справился бы с этой задачей, как и встроенные интерфейсы синтаксического анализа Java XML.
Библиотека env.js предназначена для эмуляции среды браузера под Rhino, но я считаю, что ваш документ также должен быть совместимымXHTML:
http://ejohn.org/blog/bringing-the-browser-to-the-server/
http://www.envjs.com/
Однако, если это HTML, это сложнее, так как браузеры разработаны так, чтобы быть чрезвычайно снисходительными в разборе разметки.Смотрите здесь список HTML-парсеров на Java:
http://java -source.net / open-source / html-parsers
Это непростая проблемарешать.Люди зашли настолько далеко, что встроили движок Mozilla Gecko в Java через JNI, чтобы использовать его возможности синтаксического анализа.
Я бы порекомендовал вам заглянуть в следующий проект на чистом Java:
http://lobobrowser.org/cobra.jsp
Целью проекта Lobo является разработка веб-браузера на чистом Java.Это довольно интересный проект, и там много чего, но я полагаю, что вы можете довольно легко использовать автономный анализатор в своем собственном приложении, как описано в следующей ссылке:
http://lobobrowser.org/cobra/java-html-parser.jsp