Утилита графического интерфейса Apache Tika предоставляет возможность получения основного содержимого (кроме форматированного текста и структурированного текста) данного документа или URL-адреса.Я просто хочу знать, какой метод отвечает за извлечение основного содержимого документации / URL.Так что я могу включить этот метод в моей программе.Также, используют ли они какой-либо эвристический алгоритм при извлечении данных из HTML-страниц.Потому что иногда в извлеченном контенте я не могу видеть рекламу.
ОБНОВЛЕНИЕ: Я обнаружил, что BoilerPipeContentHandler отвечает за это.