Обновление
Кажется, что Boilerpipe работает очень хорошо, но я понял, что мне не нужен только основной контент, потому что на многих страницах нет статьи, а только ссылки с кратким описанием ко всем текстам (это часто встречается в новостях). порталы) и я не хочу отбрасывать текст этих шорт.
Так что, если API делает это, получите различные текстовые части / блоки, разделяющие каждую из них некоторым образом, которые отличаются от одного текста (все только в одном тексте бесполезно), пожалуйста, сообщите.
Вопрос
Я загружаю несколько страниц со случайных сайтов, и теперь я хочу проанализировать текстовое содержание страницы.
Проблема в том, что на веб-странице много контента, такого как меню, реклама, баннеры и т. Д.
Я хочу попытаться исключить все, что не связано с содержанием страницы.
Взяв эту страницу в качестве примера, я не хочу, чтобы меню выше и ссылки в нижнем колонтитуле.
Важно: Все страницы в формате HTML и являются страницами с разных сайтов. Мне нужно предложение, как исключить это содержание.
В настоящий момент я думаю об исключении контента внутри классов "menu" и "banner" из HTML и последовательных слов, которые выглядят как собственное имя (первая заглавная буква).
Решения могут основываться на текстовом содержимом (без тегов HTML) или на содержимом HTML (с тегами HTML)
Редактировать: Я хочу сделать это внутри своего Java-кода, а не внешнего приложения (если это возможно).
Я попытался разобрать содержимое HTML, описанное в этом вопросе: https://stackoverflow.com/questions/7035150/how-to-traverse-the-dom-tree-using-jsoup-doing-some-content-filtering