jsoup - извлечение текста из статьи в Википедии - PullRequest
2 голосов
/ 05 февраля 2012

Я пишу некоторый Java-код для реализации задач НЛП над текстами с использованием Википедии.Как я могу использовать JSoup для извлечения всего текста статьи в Википедии (например, всего текста в http://en.wikipedia.org/wiki/Boston)?

Ответы [ 3 ]

3 голосов
/ 06 февраля 2012
Document doc = Jsoup.connect(url).get();
    Elements paragraphs = doc.select(".mw-content-ltr p");

    Element firstParagraph = paragraphs.first();
    Element lastParagraph = paragraphs.last();
    Element p;
    int i=1;
    p=firstParagraph;
    System.out.println(p.text());
    while (p!=lastParagraph){
        p=paragraphs.get(i);
        System.out.println(p.text());
        i++;
    } 
3 голосов
/ 05 февраля 2012
Document doc = Jsoup.connect("http://en.wikipedia.org/wiki/Boston").get();
Element contentDiv = doc.select("div[id=content]").first();
contentDiv.toString(); // The result

Конечно, вы получаете отформатированный контент таким способом.Если вы хотите «сырой» контент, вы можете отфильтровать результат с помощью Jsoup.clean или использовать вызов contentDiv.text().

0 голосов
/ 06 февраля 2012
Document doc = Jsoup.connect("http://en.wikipedia.org/wiki/Boston").timeout(5000);

Element iamcontaningIDofintendedTAG= doc.select("#iamID") ;

System.out.println(iamcontaningIDofintendedTAG.toString());

ИЛИ

Elements iamcontaningCLASSofintendedTAG= doc.select(".iamCLASS") ;

System.out.println(iamcontaningCLASSofintendedTAG.toString());
...