Существуют ли инструменты для изоляции содержимого веб-страницы? - PullRequest
0 голосов
/ 22 ноября 2010

Я работаю над школьным проектом, в котором мы хотели бы проанализировать содержание веб-страниц. Однако мы не хотим иметь дело с такими вещами, как навигационные панели и комментарии. Если бы мы смотрели на конкретный веб-сайт, мы могли бы создать парсер для фильтрации такого рода посторонних вещей специально для этого сайта, но мы надеемся работать на произвольных сайтах, с которыми мы, возможно, никогда раньше не сталкивались.

Я чувствую, что на это можно надеяться, поэтому я не удивлюсь, если ничего подобного уже не существует, но кто-нибудь знает инструмент, который может сделать такую ​​изоляцию контента на произвольных веб-сайтах? Мне немного повезло, когда я общался с другими пользователями с того же сайта, но он несовершенен и оставляет комментарии и тому подобное.

Я работаю на Java, но приветствую что-нибудь с открытым исходным кодом на любом языке, который я могу использовать для идей.

Ответы [ 4 ]

3 голосов
/ 26 января 2011

Я немного опоздала с этим (особенно для школьного проекта), но если кто-то обнаружит это в какой-то момент в будущем, может помочь следующее.

Я наткнулся на библиотеку Java, чтобы сделать именно это. Производительность в моих простых тестах похожа на удобочитаемость.

http://code.google.com/p/boilerpipe/

2 голосов
/ 22 ноября 2010

Вы можете попробовать неофициальный API Readability Arc90.

По сути, читабельность заключается в извлечении контента на веб-странице и представлении его в виде красиво отформатированной статьи.Панели навигации, комментарии и все остальное, что окружает контент на веб-странице, исчезли.

1 голос
/ 02 августа 2012

Я также немного опоздал к этому разговору, но ...

экстракторы Java Boilerpipe, вероятно, то, что вам нужно (вероятно ArticleSentencesExtractor), хотя есть по крайней мере 1 порт для чтения из arc90 в java на github.

Если вы хотите построить плохую трубу для человека, вы можете попробовать разложить 2 страницы с одного сайта (при условии, что они используют один и тот же шаблон, вы, вероятно, получите интересный результат)

Основное различие между котлом, удобочитаемостью и хаком на основе различий состоит в том, что котел удалит все HTML, но сохранит некоторую структуру

0 голосов
/ 22 ноября 2010

Я сомневаюсь, что существует что-то, что будет делать то, что вы хотите. Без какой-либо семантической разметки почти невозможно отличить "реальный" контент от других вещей. Это задача, требующая настоящего интеллекта.

Конечно, есть хорошие инструменты для разбора HTML различной степени корректности, и часто можно объединить какое-то решение на основе шаблонов для работы со страницами на определенном сайте ... при условии, что существуют общие структуры / шаблоны быть выявленным.

...