У меня есть набор из 1000 страниц (ссылок), которые я получаю, отправляя запрос в Google.Я использую JSoup.Я хочу избавиться от картинок, ссылок, меню, видео и т. Д. И взять только основную статью с каждой страницы.
Моя проблема в том, что у каждой страницы свое дерево DOM, поэтому я не могу использовать одну и ту же команду для каждой страницы!Знаете ли вы, как сделать это для 1000 страниц одновременно?Я думаю, что я должен использовать регулярные выражения.Возможно, что-то подобное
textdoc.body().select("[id*=main]").text();//get id that contains the word main
textdoc.body().select("[class*=main]").text();//get class that contains the word main
textdoc.body().select("[id*=content]").text();//get id that contains the word content
Но я чувствую, что всегда буду что-то упускать с этим.Есть идеи получше?