Сканирование в Интернете - определение основного контента на веб-странице в Java - PullRequest
2 голосов
/ 22 октября 2011

Работая над небольшим хобби-проектом, собирая несколько веб-страниц, в основном блоги и новостные сайты, которые публикуют наши пользователи.

У нас есть небольшой скрипт, который просто берет список URL-адресов и очищает страницы, тянущие всеконтент, в основном, версия hello world об использовании HTTP-компонентов Apache ...

В любом случае, мы бы хотели провести некоторый анализ текста, который появляется на этих страницах.Но так как любой URL может появиться в любом формате, нам нужен какой-то достаточно надежный способ идентификации основного контента на веб-странице (несколько ошибок здесь и там в порядке).

Кто-нибудь знает какие-либо фреймворки с открытым исходным кодом или небольшие скрипты на Java, которые можно использовать для идентификации основного текстового содержимого на веб-странице?

Есть несколько методов, которые приходят на ум, например, поиск самого большого элемента DOM с наиболее видимым текстом или сравнение количества символов, используемых для описания некоторого текста (то есть метаданных), с фактическим текстом.данные.Я надеялся, что кто-то может выпустить что-нибудь для этого на Java, но если нет, то как я собираюсь сделать это, есть ли необходимость в такой утилите?

Приветствия!

1 Ответ

3 голосов
/ 22 октября 2011

Я думаю boilerpipe полезно для вас. Посмотрите здесь: http://code.google.com/p/boilerpipe/

А вот и учебник: http://code.google.com/p/boilerpipe/wiki/QuickStart

Мне кажется довольно простым:

URL url = new URL("http://www.example.com/some-location/index.html");   
// NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you           
String text = ArticleExtractor.INSTANCE.getText(url);
...