Работая над небольшим хобби-проектом, собирая несколько веб-страниц, в основном блоги и новостные сайты, которые публикуют наши пользователи.
У нас есть небольшой скрипт, который просто берет список URL-адресов и очищает страницы, тянущие всеконтент, в основном, версия hello world об использовании HTTP-компонентов Apache ...
В любом случае, мы бы хотели провести некоторый анализ текста, который появляется на этих страницах.Но так как любой URL может появиться в любом формате, нам нужен какой-то достаточно надежный способ идентификации основного контента на веб-странице (несколько ошибок здесь и там в порядке).
Кто-нибудь знает какие-либо фреймворки с открытым исходным кодом или небольшие скрипты на Java, которые можно использовать для идентификации основного текстового содержимого на веб-странице?
Есть несколько методов, которые приходят на ум, например, поиск самого большого элемента DOM с наиболее видимым текстом или сравнение количества символов, используемых для описания некоторого текста (то есть метаданных), с фактическим текстом.данные.Я надеялся, что кто-то может выпустить что-нибудь для этого на Java, но если нет, то как я собираюсь сделать это, есть ли необходимость в такой утилите?
Приветствия!