Извините, это не отвечает при использовании Xerces-J, но есть библиотека под названием jsoup , предназначенная для такого рода вещей (хотя я уверен, что Xerces может сделать это также). Это что-то вроде Javascript для Java. Jsoup позволяет сделать что-то вроде этого:
String html = "<div id=\"myId\">foo</div>";
Document doc = Jsoup.parse(html);
String divfoo = doc.getElementById("myId").text();
System.out.println(divfoo);
Что ты думаешь?