Я получаю странное поведение с javax.swing.text.ElementIterator (). Он никогда не отображает все элементы и показывает различное количество элементов в зависимости от того, какой тип ParserCallback я использую. Приведенный ниже тест выполняется с веб-сайтом, который находится в моем профиле, но может быть выполнен с любым другим большим HTML-файлом.
// some imports shown in case its an import mixup
import javax.swing.text.AttributeSet;
import javax.swing.text.BadLocationException;
import javax.swing.text.ChangedCharSetException;
import javax.swing.text.Element;
import javax.swing.text.ElementIterator;
import javax.swing.text.MutableAttributeSet;
import javax.swing.text.StyleConstants;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTML.Tag;
import javax.swing.text.html.HTMLDocument;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.HTMLEditorKit.Parser;
import javax.swing.text.html.HTMLEditorKit.ParserCallback;
import javax.swing.text.html.parser.ParserDelegator;
// Shows whats in an element, recursively
public void printElement(HTMLDocument htmlDoc, Element element)
throws BadLocationException
{
AttributeSet attributes = element.getAttributes();
System.out.println("element: '" + element.toString().trim() + "', name: '" + element.getName() + "', children: " + element.getElementCount() + ", attributes: " + attributes.getAttributeCount() + ", leaf: " + element.isLeaf());
Enumeration attrEnum = attributes.getAttributeNames();
while (attrEnum.hasMoreElements())
{
Object attr = attrEnum.nextElement();
System.out.println("\tAttribute: '" + attr + "', Val: '" + attributes.getAttribute(attr) + "'");
if (attr == StyleConstants.NameAttribute
&& attributes.getAttribute(StyleConstants.NameAttribute) == HTML.Tag.CONTENT)
{
int startOffset = element.getStartOffset();
int endOffset = element.getEndOffset();
int length = endOffset - startOffset;
System.out.printf("\t\tContent (%d-%d): '%s'\n", startOffset, endOffset, htmlDoc.getText(startOffset, length).trim());
}
}
for (int i = 0; i < element.getElementCount(); i++)
{
Element child = element.getElement(i);
printElement(htmlDoc, child);
}
}
public void tryParse(String filename)
throws FileNotFoundException, IOException, BadLocationException
{
BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(filename)));
Parser parser = new ParserDelegator();
HTMLEditorKit htmlKit = new HTMLEditorKit();
HTMLDocument htmlDoc = (HTMLDocument) htmlKit.createDefaultDocument();
ParserCallback callback2 = htmlDoc.getReader(0);
ParserCallback callback1 =
new HTMLEditorKit.ParserCallback()
{
};
parser.parse(in, callback2, true);
ElementIterator iterator = new ElementIterator(htmlDoc);
Element element;
while ((element = iterator.next()) != null)
printElement(htmlDoc, element);
in.close();
}
В приведенном выше тесте результаты меняются, если я использую callback1 или callback2. Еще более странно, что если я заполняю обратные вызовы соответствующими функциями и заставляю их что-то выводить, они показывают, что анализатор обрабатывает весь веб-сайт, но ElementIterator все еще не имеет всего этого.
Я также пытался использовать htmlKit.read () вместо parser.parse (), но он все равно не работает.
Хотя сейчас я получаю желаемые результаты с помощью функций обратного вызова синтаксического анализатора (здесь не показано), я все еще задаюсь вопросом, почему ElementIterator не работает должным образом в случае, если он мне понадобится позже, поэтому мне интересно, есть ли у кого-нибудь здесь опыт с этим ElementIterator и может ответить.
Обновление: полный исходный код Java загружен здесь:
http://home.snafu.de/tilman/tmp/Main.java