Получить заголовок и описание динамически с помощью URL - PullRequest
1 голос
/ 31 марта 2012

Мне нужно получить заголовок и описание URL-адреса динамически. Что мне нужно использовать для этого?

Возьмем, к примеру, следующий URL: http://en.wikipedia.org/wiki/Stack_overflow

Мне нужно извлечь фрагмент URL-адреса и его описание. Вы предпочтете извлечь jsoup, как показано ниже?

url.select("title");

Если да, как извлечь описание URL?

1 Ответ

1 голос
/ 31 марта 2012

Я думаю, что вам нужен анализатор HTML, такой как Jericho.

Взгляните на этот пример: http://jericho.htmlparser.net/samples/console/src/ExtractText.java

специально это два метода:

private static String getTitle(Source source) {
    Element titleElement=source.getFirstElement(HTMLElementName.TITLE);
    if (titleElement==null) return null;
    // TITLE element never contains other tags so just decode it collapsing whitespace:
    return CharacterReference.decodeCollapseWhiteSpace(titleElement.getContent());
}

private static String getMetaValue(Source source, String key) {
    for (int pos=0; pos<source.length();) {
        StartTag startTag=source.getNextStartTag(pos,"name",key,false);
        if (startTag==null) return null;
        if (startTag.getName()==HTMLElementName.META)
            return startTag.getAttributeValue("content"); // Attribute values are automatically decoded
        pos=startTag.getEnd();
    }
    return null;
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...