Получить только текст с нескольких страниц с помощью JSoup - PullRequest
0 голосов
/ 19 января 2012

У меня есть набор из 1000 страниц (ссылок), которые я получаю, отправляя запрос в Google.Я использую JSoup.Я хочу избавиться от картинок, ссылок, меню, видео и т. Д. И взять только основную статью с каждой страницы.

Моя проблема в том, что у каждой страницы свое дерево DOM, поэтому я не могу использовать одну и ту же команду для каждой страницы!Знаете ли вы, как сделать это для 1000 страниц одновременно?Я думаю, что я должен использовать регулярные выражения.Возможно, что-то подобное

textdoc.body().select("[id*=main]").text();//get id that contains the word main
textdoc.body().select("[class*=main]").text();//get class that contains the word main
textdoc.body().select("[id*=content]").text();//get id that contains the word content

Но я чувствую, что всегда буду что-то упускать с этим.Есть идеи получше?

1 Ответ

0 голосов
/ 19 января 2012
Element main = doc.select("div.main").first();
Elements links = main.select("a[href]");

У всех разных страниц есть основной класс для основной статьи?

...