JTidy Node.findBody () - Как использовать? - PullRequest
4 голосов
/ 21 октября 2008

Я пытаюсь выполнить синтаксический анализ XHTML DOM с помощью JTidy, и это кажется довольно нелогичной задачей. В частности, есть способ разбора HTML:

Node Tidy.parse(Reader, Writer)

И чтобы получить этого узла, я полагаю, я должен использовать

Node Node.findBody(TagTable)

Где мне взять экземпляр этого TagTable? (Конструктор защищен, и я не нашел фабрику по его производству.)

Я использую JTidy 8.0-SNAPSHOT.

Ответы [ 2 ]

6 голосов
/ 21 октября 2008

Я обнаружил, что намного более простой метод извлечения тела:

tidy = new Tidy();
tidy.setXHTML(true);
<b>tidy.setPrintBodyOnly(true);</b>

А затем используйте tidy для пары Reader-Writer.

Просто, как и должно быть.

3 голосов
/ 21 октября 2008

Вместо этого вы можете использовать метод parseDOM, который вернет вам org.w3c.dom.Document:

Document document = Tidy.parseDOM(reader, writer);
Node body = document.getElementsByTagName("body").item(0);
...