Question

Я использую NekoHTML-фреймворк с версией xerces 2.11.0 для разбора HTML-документа.Но у меня возникла проблема с этим простым кодом:

DOMParser parser = new DOMParser();
System.out.println(parser.getClass().toString());
InputSource url = new InputSource("http://www.cbgarden.org");
try{
    parser.parse(url);
    Document document = parser.getDocument();
    System.out.println(document.hasChildNodes());
    System.out.println(document.getBaseURI());
    System.out.println(document.getNodeName());
    System.out.println(document.getNodeValue());
}catch(Exception e){
    e.printStackTrace();
}

Теперь я поместил здесь результат нескольких отпечатков:

class org.cyberneko.html.parsers.DOMParser
true
http: //www.cbgarden.org
document
null

Итак, мой вопрос:Что может быть не так?Никаких исключений не выдается, и я следую правилам, которые определены в правилах использования в NekoHTML.Мои библиотеки путей сборки имеют такой приоритет:

nekohtml.jar
nekohtmlSamples.jar
xercesImpl.jar
xercesSamples.jar
xml-apis.jar

Martijn Courteaux · Answer 1 · 11 октября 2011

Полагаю, ваш вопрос о null?
Узел document не имеет значения. Он имеет только подузлы (например, <html>, в котором содержится <head> и <body>).

Но если вы хотите иметь весь источник страницы в виде строки, вы можете просто загрузить его, используя URL его метод openStream().

Разбор HTML-документа с NekoHTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбор HTML-документа с NekoHTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы