Как вы фильтруете теги? - PullRequest
       17

Как вы фильтруете теги?

0 голосов
/ 10 марта 2019
import org.jsoup.Jsoup;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class ListLinks {
    public static void main(String[] args) throws IOException {
        //Validate.isTrue(args.length == 1, "usage: supply url to fetch");
        String url = "https://www.google.com/";
        print("Fetching %s...", url);

        Document doc = Jsoup.connect(url).get();
        Elements links = doc.select("a");

        print("\nLinks: (%d)", links.size());
        for (Element link : links) {
            print(" * a: <%s>  (%s)", link.attr("abs:href"), trim(link.text(), 35));
        }
    }

    private static void print(String msg, Object... args) {
        System.out.println(String.format(msg, args));
    }

    private static String trim(String s, int width) {
        if (s.length() > width)
            return s.substring(0, width-1) + ".";
        else
            return s;
    }
}

У меня такой вопрос, в результате получается куча дополнительных тегов, таких как:

Может кто-нибудь показать мне, как удалить такие вещи, как "*", "a", "<>", и он просто отображает только ссылки?

1 Ответ

0 голосов
/ 11 марта 2019

Просто настройте строку формата для String.format().В вашем случае значение msg:

print("%s", link.attr("abs:href"));
...